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效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


前 桥 和 弥 ( Maebasi Kazuya ) 


1969 年 出 生 ， 著 有 《征服 C 指 针 》、《 彻 底 
掌握 C 语 言 》、《Java 之 文 和 陷阱 》 等 。 其 一 针 见 
血 的 “毒舌 ”文风 和 对 编程 语言 深刻 的 见地 受到 
广大 读者 的 欢迎 。 

作者 主页 : http://kmaebashi.com/。 
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内 容 提 要 
本 书 手把手 地 教 读者 用 C 语 言 制作 两 种 编程 语言 : crowbar 与 Diksam。crowbar 是 运行 分 析 树 的 无 
类 型 语言 , Diksam 是 运行 字 节 码 的 静态 类 型 语言 。 这 两 种 语言 都 具备 四 则 运算 变量、 条件 分 支 、 循 环 、 
函数 定义 、 垃 圾 回收 等 功能 , 最 终 版 则 可 以 支持 面向 对 象 、 异 常 处 理 等 高 级 机 制 。 所 有 源 代码 都 提供 下 
载 , 读者 可 以 一 边 对 照 书 中 的 说 明 一 边 调试 源 代码 。 这 个 过 程 对 理解 程序 的 运行 机 制 十 分 有 帮助 。 
本 书 适合 有 一 定 基础 的 程序 员 和 编程 语言 爱好 者 阅读 。 
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译 者 序 


能 翻 开 这 本 书 的 人 ， 想 必 对 编程 都 有 着 浓厚 的 兴趣 。 大 部 分 编程 爱好 
者 都 会 利用 业余 时 间 写 一 些小 程序 、 开 源 项 目 作 为 消 中 ， 却 很 少 有 人 会 想 
要 自己 创造 一 门 编程 语言 ， 这 是 为 什么 呢 ? 

在 翻译 本 书 之 前 ， 如 果 别 人 问 我 要 不 要 尝试 自制 编程 语言 ， 我 一 定 会 
觉得 他 疯 了 。 因 为 在 潜意识 里 ， 我 一 直 认 为 制作 编程 语言 应 该 是 C 语言 之 
父 丹尼斯 里 奇 这样 的 业界 大 牛 才能 完成 的 浩大 工程 ， 作 为 一 个 普通 程序 
员 只 要 安 于 本 分 ， 用 好 已 有 的 语言 就 已 经 足够 了 。 

在 翻译 完 本 书后 ， 我 才 发 现 自己 真 的 是 大 错 特 错 。 原 来 创造 一 门 编程 
语言 ， 只 需要 一 些 C 语言 基础 、 一 些 正则 表达 式 知识 、 加 上 不 断 思 索 的 大 
脑 束 可 以 做 到 。 如 果 你 还 觉得 难以 置信 ， 那么 就 请 看 看 在 这 本 不 算 厚 的 书 
中 ， 作 者 居然 已 经 创造 了 两 门 编程 语言 ， 并 且 都 具备 高 级 编程 语言 的 所 有 
特性 。 

其 实 一 开始 的 问题 已 经 有 了 答案 : 很 多 看 似 难 如 登 天 的 事情 ， 一 旦 真 的 
下 决心 去 做 ， 你 会 发 现 难度 并 没有 想象 中 那么 高 ， 只 是 我 们 往往 缺少 一 颗 
勇于 挑战 的 心 婴 了 。 

本 书记 录 了 作者 一 步 一 步 从 零 创造 出 编程 语言 的 全 过 程 ， 作 者 并 不 是 
什么 行业 精英 ， 而 是 像 你 我 一 样 的 普通 开发 者 。 整 本 书 中 也 没有 用 特别 复 
杂 的 算法 或 酷 炫 的 编程 技巧 ， 但 是 就 任 借 着 一 行 行 简单 朴实 的 编程 语句 ， 
作者 最 终 完成 了 一 个 普通 开发 者 看 来 几乎 不 可 能 完成 的 任务 。 阅 读 完 本 书 
后 ， 除 了 自制 编程 语言 的 知识 ， 我 相信 读者 还 能 收获 到 一 些 更 重要 的 东西 。 

本 书 原 文 讲 到 了 日 文 编码 的 知识 ， 为 了 更 好 的 将 内 容 精 髓 呈现 给 读者 ， 
我 们 大 胆 地 将 涉及 日 文 编码 的 部 分 全 部 更 改 为 中 文 编码 的 知识 ， 译 者 刘 卓 
还 对 此 编写 了 很 多 原创 的 补充 内 容 ， 力 求 能 与 原 书 保持 同样 的 水 平 。 如 有 
错误 或 芍 源 ， 还 请 读者 随时 指正 。 

读 完全 书后 ， 你 会 对 编程 语言 的 原理 和 实现 方式 有 一 个 全 面 深入 的 了 
解 ， 比 如 你 会 明白 为 什么 Java 中 String 类 型 明明 是 对 象 类 型 却 不 能 改变 其 
内 容 ，C 语言 中 为 什么 a++ + ++b 这 样 看 似 合理 的 语句 却 会 报错 等 。 以 前 
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知 其 然而 不 知 其 所 以 然 的 问题 都 会 得 到 答案 ， 这 对 日 后 进行 更 高 阶 的 开发 
有 很 大 的 帮助 。 

更 重要 的 是 ， 你 可 以 获得 自制 编程 语言 的 能 力 ， 从 而 可 以 去 做 很 多 以 
前 敢 想 却 没有 能 力 做 的 事情 ， 比 如 我 现在 就 在 构思 能 和 否 创造 一 门 以 文言 文 
和 中 国 古 代 文 化 为 基础 的 编程 语言 : 易 经 八卦 就 是 天 然 的 二 维和 矩阵 ,《 九 
章 算 术 》 则 有 不 少 基础 算法 …… 相 信 读 考 还 会 有 更 加 天 才 有 趣 的 想法 出 
现 。 如 果 能 运用 本 书 中 的 知识 最 终 将 其 实现 ， 那 么 这 将 是 对 翻译 工作 最 
好 的 肯定 。 

最 后 ， 在 这 里 代表 其 他 二 位 译 者 一 并 感谢 在 翻译 过 程 中 给 予 我 们 帮助 
和 支持 的 家 人 人、 同事， 让 这 本 书 最 终 得 以 问世 。 


























徐 谱 


2013 年 中 秋 
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这 本 书 是 为 那些 想 独立 制作 一 门 编程 语言 的 人 而 写 的 。 

一 听 到 这 个 话题 ， 有 的 人 会 想 : 太 疯 狂 了， 制作 编程 语言 表 定 很 有 难度 
吧 ? 有 人 会 怀疑 : 制作 编程 语言 能 有 什么 用 呢 ? 其 实 这 些 都 是 误解 。 

制作 编程 语言 在 技术 层面 上 其 实 并 不 难 ， 只 要 掌握 一 些 基础 知识 即 可 。 
而 且 ， 制 作 编 程 语言 对 于 我 们 深入 理解 日 常 使 用 的 C、Java、JavaScript 等 
语言 都 有 帮助 。 在 一 些 应 用 程序 的 内 置 脚本 语言 中 ， 我 们 也 经 常会 因为 种 
种 限制 从 而 萌生 制作 替代 语言 的 想法 。 因 此 ， 自 制 编程 语言 并 不 是 少数 极 
客 的 个 人 癣 好 ， 它 对 大 多 数 程序 员 都 颇具 实用 价值 。 

日 本 关于 制作 编程 语言 的 书 已 经 很 多 了 ， 其 中 一 些 还 被 选 定 为 大 学 教 
科 书 。 这 些 书 中 常 出 现 有 限 状 态 机 、NFA、LL(1)、LR(1)、SLA 等 专业 词 
汇 ， 同 时 还 大 量 使 用 mn 、s 等 数学 符号 ， 对 于 不 熟悉 这 部 分 理论 知识 的 人 
(包括 我 自己 在 内 ) 来 说 非常 难以 读 懂 。 人 针对 这 种 现状 ， 本 书 会 偏重 实践 ， 
避免 枯燥 的 理论 。 

本 书 将 分 别 制作 两 种 编程 语言 : crowbar 与 Diksam。crowbar 是 运行 分 
析 树 的 无 类 型 语言 ，Diksam 是 运行 字 节 码 的 静态 类 型 语言 。 无 论 哪 种 语 
， 都 具备 四 则 运算 、 变 量 、 条 件 分 支 、 循 环 、 函 数 定义 、 垃 圾 回收 等 功 
EE， 最 终 版 则 可 以 支持 面向 对 象 、 异 常 处 理 等 高 级 机 制 。 总 之 ， 作 为 现代 
编程 语言 所 必须 具备 的 功能 都 基本 覆 盖 了 (唯一 可 能 没 实现 的 就 是 多 线程 
了 吧 )。 所 有 源 代码 都 提供 下 载 ， 读 者 可 以 一 边 对 照 书 中 的 说 明 一 边 调试 源 
代码 ， 这 样 应 该 不 难 理解 整个 程序 的 运行 机 制 。 

当然 ， 要 一 次 实现 如 此 多 功能 的 编程 语言 ， 对 于 初学 者 而 言 可 能 有 点 
吃力 ， 因 此 本 书 会 详细 介绍 crowbar 、Diksam 的 制作 步 台 ， 请 放心 。 

在 制作 编程 语言 的 过 程 中 ， 我 体会 到 了 一 种 无 法 用 语言 形容 的 快乐 。 
其 实 无 论 在 日 本 或 其 他 地 区 ， 世界 上 还 有 很 多 人 都 在 尝试 自制 编程 语言 ， 
这 正 是 编程 语言 不 断 增 加 的 原因 。 如 果 以 本 书 为 契机 ， 有 朝 一 日 你 也 向 本 
已 混乱 的 巴比伦 之 塔 再 添 一 门 新 语言 的 话 ， 作 为 本 书 作 者 ， 这 将 是 无 上 的 


光 末 。 
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viii | 前 言 





在 本 书 的 撰写 过 程 中 ,得 到 了 很 多 朋友 的 帮助 与 支持 : 

感谢 百 忙 之 中 通读 原稿 并 给 出 很 多 改进 意见 的 吉田 敦 、 间 野 健 二 、 藤 
井 壮 一 、 山 本 将 ; 感谢 对 本 书 原型 ， 即 网 页 版 “自制 编程 语言 ”提出 意见 的 
朋友 ; 感谢 对 博客 连载 “自制 编程 语言 日 记 ” 提 出 意见 的 读者 朋友 ， 以 及 实 
际 使 用 crowbar 与 Diksam 并 提出 意见 的 朋友 。 最 后 还 要 感谢 每 次 对 我 延迟 
交 稿 仍然 充满 耐心 的 技术 评论 社 的 熊谷 裕 美 子 编辑 。 多 亏 大 家 的 易 力 支持 ， 
本 书 才 终 能 完成 ， 在 此 我 表示 深 深 的 谢意 。 









































2009 年 5 月 7 日 01:06J.S.T 
前 桥 和 弥 
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002 | 第 1 章 引子 


> 四 为 什么 要 制作 编程 语言 


本 书 的 主题 是 自制 编程 语言 。 单 说 现在 被 广泛 使 用 的 编程 语言 ， 就 有 C、 
C++、Java、C#、Perl、Python、Ruby、PHP、Lisp、JavaScript 等 。 可 能 有 人 会 质 
颖 ， 既 然 已 经 有 这 人 么 多 语言 了 ， 真 的 有 必要 再 特意 创造 一 门 新 的 语言 吗 ? 

实际 上 ， 自 制 编程 语言 还 是 大 有 益处 的 。 


1. 可 以 帮助 理解 编程 语言 的 内 部 运行 机 制 

编程 语言 是 程序 员 每 天 都 要 使 用 的 工具 。 深 刻 地 理解 这 个 工具 ， 对 程序 员 来 
说 非常 重要 。 

一 般 来 说 ， 重 新 编写 一 个 与 已 有 程序 相似 的 程序 会 被 说 成 是 “重复 发 明 轮 
子 ”"， 这 在 行业 内 是 不 被 认同 的 。 但 本 书 中 想 要 实现 的 ， 偏偏 是 在 众多 语言 存在 
的 前 提 下 再 制作 一 门 新 的 语言 ， 正 是 “重复 发 明 轮 子 "。 这 是 深刻 理解 编程 语言 
的 最 佳 途径 〈 缺点 是 要 花 很 多 时 间 )。 


2. 能 制作 领域 专用 语言 

比如 在 Unix 的 世界 中 ， 有 sed 和 awk 两 种 历史 悠久 的 专 为 文本 处 理 定 制 的 
语言 〈 后 来 在 此 方向 上 发 展 出 了 Perl 语言 )。PHP 则 是 专门 面向 Web 程序 开发 的 
语言 。 如 果 掌 握 了 制作 编程 语言 的 技术 ， 就 可 以 在 必要 的 情况 下 制作 出 领域 专用 
语言 (DSL，Domain-Specific Language )。 

领域 专用 语言 不 一 定 会 像 Perl 与 PHP 那么 复杂 ， 在 很 多 情况 下 ， 如 果 能 书写 
条 件 分 支 或 者 简单 语句 的 话 会 方便 许多 ， 这 也 可 以 看 作 是 一 种 专用 领域 。 

比如 在 业务 流程 处 理 等 软件 中 ， 很 多 时 候 为 了 切换 测试 环境 与 生产 环境 的 数 
据 库 ， 需 要 重 写 配 置 文件 ， 而 这 一 操作 经 常会 引发 问题 ( 比如 由 于 版 本 升级 需要 
增加 配置 文件 项 目 ， 此 时 必须 与 旧版 本 配置 文件 合并 )。 这 时 候 我 们 可 能 就 会 想 ， 
如 果 能 直接 在 配置 文件 中 写 if 语句 将 其 按 域名 分 开 就 好 了 。 

除 此 以 外 ， 我 们 在 填写 数据 时 可 能 希望 能 支持 类 似 Excel 的 简单 算术 公式 ， 
在 玩 游戏 时 希望 能 把 游戏 中 的 对 话 导 出 到 一 个 外 部 文件 中 ， 等 等 。 这 些 都 可 以 看 
作 专 用 领域 并 制作 对 应 的 DSL。 


3. 可 以 用 编程 语言 扩展 应 用 程序 
将 以 上 两 方面 的 考量 进一步 延伸 ， 我 们 就 会 得 到 以 通用 语言 扩展 某 个 应 用 
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1.2 自制 编程 语言 并 不 是 很 难 | 00 3 




















程序 的 构想 。Emacs 这 个 编辑 需 就 内 置 了 Emacs Lisp 这 种 Lisp 方言 ， 从 而 为 
Emacs 的 自 定义 提供 了 无 限 的 可 能 性 。 同 理 ，Microsoft Office 也 可 以 使 用 VBA 
进行 扩展 。 

对 于 这 类 应 用 程序 扩展 语言 ， 当 然 完全 可 以 使 用 某 种 已 有 的 编程 语言 ( Lua 
等 就 在 向 这 个 方向 发 展 )， 也 可 以 在 编写 应 用 程序 时 从 底层 到 扩展 全 部 自己 实现 。 
这 样 就 无 需 担心 使 用 其 他 编程 语言 在 版 本 升级 时 引起 的 兼容 性 问题 了 。 

4. 说 不 定 还 会 变 成 名 人 

如 果 自 制 的 编程 语言 能 在 世界 范围 内 得 到 广泛 使 用 ， 那 就 太 棒 了 了。 比如 Ruby 
之 父 松 本 行 弘 先生 就 是 世界 名 人 。 

不 过 坦白 讲 ， 通 过 自制 编程 语言 来 获得 成 功 实在 是 太 难 了 。 即 便 语 言 被 创造 
出 来 ， 如 果 没 人 用 的 话 就 不 会 产生 相应 的 软件 ， 这 样 就 更 不 会 有 人 用 了 。 况且， 
即便 真 的 因为 发 明了 新 的 语言 而 变 成 了 名 人 ， 通 过 这 个 赚 到 人 钱 的 希望 也 十 分 渺 蒜 
啊 。 其 实 我 自己 最 近 写 的 语言 处 理 融 都 是 免费 发 布 的 (不 这 样 的 话 ， 语 言 没 法 普 
及 呀 )。 


5. 自制 编程 语言 非常 有 趣 

中 呵 了 这 么 多 ， 说 到 底 其 实 是 因为 自制 编程 语言 非常 有 趣 。 

自制 一 门 编程 语言 确实 是 一 件 非常 有 意思 的 事 。 有 人 说 过 “ 想 写 出 终极 程序 
的 程序 员 ， 最 终 都 去 写 操作 系统 或 者 编程 语言 了 "， 你 可 以 通过 自制 编程 语言 感 
受到 接触 最 核心 技术 的 乐趣 。 

让 尽 可 能 多 的 人 感受 到 这 种 乐趣 ， 这 正 是 本 书 的 目标 。 
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自制 编程 语言 并 不 是 很 难 


一 提起 自制 编程 语言 ， 很 多 人 都 会 觉得 这 是 一 件 非常 难 的 事情 。 
比如 ， 即 便 是 一 个 很 常见 的 赋值 语句 : 


El Er Io os Jo2 YY [00S 


在 自制 编程 语言 时 都 必须 考虑 到 以 下 几 个 要 点 。 
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当然 ， 在 早年 原始 的 石 
发 条 件 下 ， 人 们 为 了 开 
发 第 一 个 编程 语言 编译 
器 还 是 花费 了 相当 大 的 
精力 ， 据 说 实现 初版 的 
FORTRAN 编译 器 所 花 
费 的 工时 ， 累 计 达 到 了 
216 人 月 "1。 














ye 

















1. 需要 将 al、b1、b2 作为 变量 名 解析 出 来 。 如 果 按照 C 语言 的 语法 规则 ， 变 量 名 只 

能 由 字母 或 下 划 线 开头 ， 从 变量 名 第 二 个 字符 开始 才 人 允许 出 现 字 母 或 数字 。 所 以 

首先 必须 扫描 这 个 语句 ， 然 后 将 匹配 上 述 语 法 规则 的 部 分 提取 出 来 。 

2. 0.5 是 一 个 含有 小 数 点 的 常量 ， 在 提取 这 类 常量 时 ， 能 否 用 “数字 组 合 + 小 数 点 
+ 数字 组 合 ” 来 概括 所 有 常量 的 特征 呢 ( 还 要 考虑 是 否 允 许 00.10 这 样 的 数值 )。 
























































































































































































































































当然 我 们 的 提取 规则 还 要 能 处 理 2 这 样 不 含 小 数 点 的 数值 。 
3. 乘法 运算 符 * 比 + 拥有 更 高 的 运算 优先 级 ,语句 必须 被 解析 为 bl + (b2 * 0.5)。 
4. b2 * 0.5 的 计算 结果 ， 必 须 在 与 bl 进行 加 法 运算 前 就 应 该 取得 。 也 就 是 说 对 于 


























复杂 的 计算 ， 需 要 保存 很 多 类 似 这 样 的 临时 运算 结果 。 




















的 编程 经 验 越 丰富 ， 就 越 能 感受 到 这 其 中 隐藏 着 极 大 的 难题 。 

不 过 ， 编 程 语言 的 语言 处 理 器 在 FORTRAN 诞生 后 已 经 经 过 了 多 年 的 研究 ， 
上 面 的 这 些 难 点 都 已 经 可 以 从 前 人 那里 找到 解决 方法 *。 

在 本 书 中 ， 上 面 1 ~ 3 的 问题 会 用 到 名 为 yacc 及 lex 的 工具 。 问 题 1 和 问题 2 
用 1lex， 问 题 3 通过 yacc 解决 。yacc 和 lex 都 是 非常 老 的 工具 了 ， 现 在 流行 的 LL 
语言 大 多 内 置 了 yacc。 可 能 有 人 会 说 :“ 既 然 是 以 学 习 为 目的 去 制作 一 门 编程 语 
言 ， 如 果 还 使 用 工具 的 话 就 太 投机 取 巧 了 吧 。”( 这 话 很 有 道理 。) 所 以 在 本 书 中 ， 
也 会 稍微 介绍 一 下 不 使 用 这 些 工 具 的 解决 方法 。 

无 论 是 使 用 工具 ， 还 是 基于 一 些 已 有 的 解决 方案 自己 编写 ， 如 果 能 掌握 一 些 
穹 门 的 话 ， 自 制 编程 语言 其 实 并 不 难 。 

那么 你 想 不 想 试 试 自己 制作 一 门 编程 语言 呢 ?” 自 己 创造 编程 语言 这 件 事 情 ， 
不 管 怎么 说 都 是 很 酶 的 吧 。 


























































































































2 四 本 书 的 构成 与 面向 读者 


本 书 由 以 下 的 章节 构成 : 

e 第 1 章 引子 

@ 第 2 章 试 做 一 个 计算 器 

e@ 第 3~4 章 制作 无 类 型 语言 crowbar 


e@ 第 5 章 中 文 支持 与 Unicode 
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章 ， 制 作 静 态 类 型 的 语言 Diksam 
应 用 篇 

第 1 章 即 是 你 正在 阅读 的 章节。 本 章 会 对 全 书 的 构成 以 及 讲解 方式 进行 说 明 。 

第 2 章 通过 制作 一 个 简单 的 计算 器 ， 介 绍 yacc/lex 的 基本 使 用 方法 。 其 实 讲 
解 yacc/lex 的 部 分 ， 选 择 “计算 器 ”为 例 实在 有 点 老 套 ， 但 确实 没有 比 这 更 合 
适 的 题目 了 。 此 外 还 会 介绍 如 何不 依赖 yacc， 使 用 递归 下 降 分 析 器 (Recursive 
Descent Parser ) 来 制作 一 个 计算 器 。 

从 第 3 章 开 始 ， 会 实际 制作 有 一 定 行 数 规模 的 编程 语言 。 

3 一 4 章 会 制作 一 个 名 为 crowbar 的 无 类 型 解释 型 语言 ，6 一 8 章 则 主要 制作 
名 为 Diksam 的 支持 静态 类 型 的 编译 型 语言 ( 名 字 的 由 来 会 在 后 文 提 到 )。 在 第 5 
章 中 ,会 针对 使 用 编程 语言 时 的 中 文 支持 与 Unicode 问题 进行 说 明 。 

第 9 章 曾 释 闭 包 ( Closure ) 及 异常 处 理 机 制 等 进 阶 功能 。 

本 书 将 使 用 C 语言 作为 编程 语言 的 语言 处 理 咒 〈 编译 器 、 解 释 顺 等 ) 的 编写 
语言 (理由 见 后 文中 的 具体 说 明 )。 而 crowbar 与 Diksam 最 终 都 会 累积 为 具备 一 
定 行 数 规模 的 程序 ( crowbar 约 8000 行 ，Diksam 约 2 万 行 )。 

因此 ， 阅 读本 书 的 读者 最 好 具备 两 个 条 件 : 

1. 已 经 会 C 语言 

2. 具备 阅读 较 长 代码 的 能 力 

不 过 无 论 哪个 条 件 都 不 是 必须 的 。 

对 于 条 件 1 需要 说 一 点 的 是 ，Java、C++、C# 等 都 是 从 C 语言 发 展 出 来 的 语 
言 ， 所 以 对 于 已 经 学 习 过 这 些 语言 的 人 来 说 ， 读 C 语言 代码 不 会 特别 吃力 。 像 预 
处 理 程序 、 指 针 等 C 语言 特有 的 知识 ， 建 议 你 借 此 机 会 一 并 学 习 一 下 。 因 为 至 少 
就 现 阶段 来 说 ， 无 论 是 专家 还 是 业余 爱好 者 ， 但 凡是 程序 员 都 免不了 要 用 到 C 语 
言 。 而 在 crowbar 或 Diksam 中 ， 并 没有 使 用 很 多 C 语言 特有 的 功能 。 比 如 说 不 
会 出 现 *p++ 这 种 不 易 理 解 的 写法 ， 更 多 是 写成 数组 下 标的 形式 。 

对 于 条 件 2 要 说 的 是 ,虽然 一 个 语言 处 理 器 整体 来 看 是 个 上 规模 的 程序 ， 但 
是 其 基础 构成 的 部 分 并 不 会 很 庞大 。 本 书 不 会 对 每 一 行 代码 逐一 进行 注释 ， 而 是 
侧重 于 介绍 解决 问题 的 思路 ， 所 以 如 果 仅 仅 是 想 阅 读 一 下 本 书 的 话 ， 是 不 需要 具 
备 阅 读 较 长 代码 的 经 验 的 。 但 若 你 最 后 不 满足 于 书 中 的 讲解 ， 还 想 要 自己 去 阅读 
一 下 crowbar 或 者 Diksam 源 代码 的 话 ， 因 为 代码 行 数 很 多 ， 编 程 经 验 尚 浅 的 朋友 
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读 起 来 可 能 会 有 压力 。 不 过 无 论 是 业界 还 是 外 界 人 士 ， 作 为 程序 员 总 有 一 天 会 接 
触 到 大 规模 代码 的 程序 ， 将 本 次 实践 作为 入 门 的 第 一 步 也 不 是 一 件 坏事 。 

综 上 所 述 : 

如 有 果 你 觉得 自己 不 是 本 书 所 面向 的 读者 ， 想 办 法 加 入 其 中 不 就 行 了 ? 

所 以 无 需 担心 什么 ， 门 槛 其 实 没 有 你 想 的 那么 高 。 几 是 对 语言 处 理 器 有 兴趣 
的 朋友 都 是 本 书面 向 的 读者 。 


JP 医 区 时 用 什么 语言 来 制作 


如 前 文 所 述 ， 本 书 将 使 用 C 语言 作为 语言 处 理 需 的 编写 语言 。 

都 什么 年 代 了 还 用 C 语言 ? 可 能 会 有 人 这 样 想 吧 。 其 实 就 连 我 自己 也 会 这 
样 想 。 

但 本 书 还 是 使 用 了 C 语言 ， 其 中 一 个 理由 是 因为 yacc/lex 都 是 面向 C 语言 的 






















































































工具 。 


yacc/lex 本 身 是 很 老 的 工具 。 老 工具 虽然 都 有 一 些 历史 遗留 问题 ,但 也 有 其 
优点 ， 即 正 是 因为 历史 悠久 ， 所 以 会 积累 下 更 详尽 的 技术 文档 。 如 前 文 所 述 ， 目 
前 的 LL 语言 大 多 使 用 yacc。 

另 一 个 使 用 C 语言 的 理由 是 : 想 要 降低 “依赖 程度 ”的 话 ，C 语言 是 最 适 
合 的 。 

比如 说 用 Java 编写 软件 ， 运 行 环 境 中 必须 安装 JVM ( Java 虚拟 机 )。 如 果 
用 C# 则 必须 要 安装 .NET Framework。 在 自制 编程 语言 的 理由 中 ， 我 们 曾经 列举 
了 “可 以 用 编程 语言 扩展 应 用 程序 ”这 一 条 ， 并 且 提 到 ， 如 果 能 在 编写 应 用 程 
序 的 时 候 从 底层 到 扩展 全 部 自己 实现 会 更 加 放心 ， 其 目的 就 是 为 了 不 依赖 JVM 
或 .NET Framework。 这 样 在 Java 或 .NET 版 本 升级 时 也 就 无 需 操 心 了 。 
此 外 考虑 到 组 合 各 种 应 用 程序 这 个 用 途 ，C 语言 在 众多 编程 语言 中 可 以 说 是 
最 具 通 用 性 的 。 无 论 被 组 合 的 应 用 程序 采用 何 种 语言 编写 ， 毫 无 疑问 都 可 以 调用 


C 语言。 
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1 | 要 制作 怎样 的 语言 
1.5.1 | 要 设计 怎样 的 语法 


编程 语言 有 很 多 种 ，C、C++、Java、C# 等 都 是 面向 过 程 的 编程 语言 ( C++、 
Java、C# 虽然 也 被 称 为 面向 对 象 ， 但 可 以 把 面向 对 象 看 作 是 面向 过 程 的 一 个 派 
生 )。 目前 看 来 , 虽然 面向 过 程 的 语言 是 主流 ， 但 还 存在 Haskell、ML 这 样 的 函 
Re 数 式 编 程 语言 。 函 数 式 编程 语言 就 是 “变量 值 无 法 被 更 改 ” 的 一 种 语言 *。 
严格 讲 还 不 能 算是 函数 对 于 已 经 习惯 了 面向 过 程 语言 的 人 来 说 ， 肯 定 会 想 “ 变 量 值 无 法 更 改 还 怎 







































































Bs 么 写 程序 呀 "。 其 实 这 类 语言 已 经 编写 出 了 很 多 实用 的 程序 。 在 函数 式 编程 的 
基础 上 发 展 出 了 如 Prolog 这 样 的 逻辑 编程 语言 以 及 被 称 为 并 行程 序 设计 语言 的 
Erlang。 
不 过 目前 被 广泛 使 用 的 仍然 是 面向 过 程 的 编程 语言 ， 本 书 中 的 代码 示例 使 用 
的 也 都 是 面向 过 程 的 语言 风格 ， 当 然 里 面 还 会 加 入 面向 对 象 的 一 些 功能 实现 。 在 
本 书 中 ， 除 了 会 有 C++、Java、C# 这 种 基于 类 的 面向 对 象 之 外 ， 也 会 涵盖 类 似 
JavaScript 这 种 没有 类 的 面向 对 象 。 
语法 层面 上 ， 会 使 用 类 似 C 语言 的 风格 。crowbar 的 示例 代码 如 代码 清单 1-1 
所 示 ，Diksam 的 示例 代码 如 代码 清单 1-2 所 示 。 
代码 清单 11 
crowbar 版 FizzBuzz 人 
f(T5 0 
print ("FizzBuzz\n"); 
} elsif (i % 3 == 0) { 
print ("Fizz\n"); 
} él81E (二 晾 与 三 二) 
print ("Buzz\n"); 
} else { 
Print("" + i + "\n"); 
} 
} 
代码 清单 12 
Diksam 版 FizzBuzz Ee 
for (1 5s ly «a L000 les) { 
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ye 





if (1 名 15 == ©0) { 
println("FPiszBuzss") ; 

} elsif (i % 3 == 0) { 
println("Fizz"); 

} elsif (i % 5 == 0) { 
println("Buzz"); 

} else { 
println("" + i); 


} 
} 


顺便 说 一 下 这 个 名 为 FizzBuzz 的 小 程序 ， 其 运行 机 制 如 下 : 


输出 从 1 到 100 的 数字 ， 如 果 为 3 的 倍数 时 ， 则 将 数字 替换 为 Fizz，5 的 倍数 时 则 输出 
Buzz， 同 时 为 3 与 5 的 倍数 时 输出 FizzBuzz。 


























这 个 小 程序 引 自 下 面 的 文章 。 文 章 大 意 是 建议 企业 在 面试 程序 员 时 ， 至 少 应 
聘 者 能 写 出 这 种 程度 的 代码 再 考虑 录用 。 
为 什么 自称 程序 员 的 人 写 不 出 程序 ? 


http://www.aoky.net/articles/jeff_atwood/why_cant_programmers_program.htm 


























看 了 示例 就 能 明白 ， 无 论 crowbar 还 是 Diksam， 都 是 与 C 语言 非常 类 似 的 语言 。 

如 上 所 述 ， 本 书 虽 然 会 创造 一 门 新 语言 但 仍然 会 用 到 C 语言 ， 所 以 本 书 所 面 
向 的 读者 应 该 是 已 经 掌握 了 C 语言 的 (还 没有 掌握 的 人 可 以 先 去 学 习 一 下 )。 
此 如 果 选 择 C 语言 风格 的 语法 ， 读 者 应 该 会 感到 很 亲切 ， 更 重要 的 是 笔者 本 人 已 
经 习惯 了 Java、C# 这 种 以 C 语言 为 基础 的 编程 语言 。 

C 语言 是 很 老 的 语言 了 ， 这 门 语言 不 是 在 前 期 经 过 严谨 的 设计 ， 而 是 在 项 目 
中 一 边 实践 一 边 慢 慢 发 展 起 来 的 ， 因 此 语法 上 难免 有 很 多 考虑 不 周 的 地 方 。 比 如 
在 C 语 言 中 赋值 使 用 =， 即 数学 中 的 等 号 。 而 C 程序 员 在 初学 者 阶段 编写 if 语 
句 时 ， 肯 定 免不了 会 写成 这 样 : 















































这 样 惨痛 的 教训 至 少 也 要 经 历 一 次 吧 。 赋 值 在 Pascal 等 语言 中 ， 一般 使 
用 :=。 如 果 让 一 个 没有 编程 经 验 的 人 来 学 习 ，Pascal 这 种 语法 应 该 更 加 友好 
一 些 。 

不 过 我 现在 是 要 制作 一 门 新 的 编程 语言 ， 而 使 用 这 门 新 语言 的 人 应 该 都 已 经 
习惯 了 C 语言 的 运算 符 ， 如 果 这 里 将 赋值 运算 符 定 为 := 的 话 反而 会 引起 混乱 ， 
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说 不 定 我 自己 就 先头 早 了 。 所 以 经 验 之 谈 是 ， 语 法 上 的 些许 优 劣 还 是 要 给 “ 习 
惯 ” 让 步 的 。 
出 于 这 种 考虑 ， 我 最 终 决定 制作 一 门 与 C 话 言 类 似 的 编程 语言 。 
决定 语法 风格 是 编程 语言 创造 者 的 特权 。 如 果 顾 虑 用 户 习惯 ， 可 以 参考 并 
整合 已 有 的 编程 语言 。 当 然 ， 也 可 以 完全 不 考虑 用 户 的 感受 ， 去 创造 一 门 “ 理 
想 的 语言 ”。 虽 然 我 是 以 C 语言 的 语法 为 基础 ， 但 还 是 想到 了 以 下 几 点 可 以 改进 
的 地 方 。 
1. if£ 条 件 在 C 语 言 中 ， 如 果 按 条 件 执 行 的 语句 只 句 ， 则 {} 可 以 省 略 。 但 是 这 经 
常会 造成 混乱 ， 很 多 项 目的 编码 规范 中 都 会 规定 必须 包含 {} 。 因 此 最 好 在 语 ; 
面 直接 将 { }) 设置 为 不 可 省 略 ( crowbar、Diksam 均 如 此 ) 。 
2. 既然 已 经 将 i£f 条 件 中 的 {} 设 置 为 不 可 省 略 ， 那 么 if 后 面 的 () 要 怎么 办 呢 ? ( 关 
于 这 一 点 ， 我 起 初 在 crowbar 中 党 试 了 一 下 省 略 if 的 括号 ， 结 果 发 现在 crowbar 
中 () 是 不 可 省 略 的 。 
3. 伴随 着 语言 的 逐步 完善 ， 考 虑 到 要 增加 一 些 关键 字 ( 参考 2.3.1 节 的 补充 知识 ) 
此 时 再 处 理 与 已 存在 程序 的 变量 名 相 冲 突 的 问题 就 比较 麻烦 ， 所 以 考虑 在 所 有 的 
变量 前 加 上 $ ( Perl 或 PHP 等 的 解决 方式 ) ， 或 者 将 关键 字 全 部 以 大 写字 母 开 头 
Modula-2 等 的 解决 方式 ) 。 
4. switch case 语 句 中 ， 最 好 能 去 掉 忘 了 写 break 就 会 进入 下 一 个 case 这 种 容易 产 
生 问 题 的 设计 ( Java 没 有 改进 这 一 点 ，C# 则 做 了 一 些 半 吊 子 的 改进 ) 。 
.Switch case 语 句 中 ， 如 果 没 有 进入 任何 一 个 case 条 件 分 支 ， 也 没有 写 default 分 
支 ， 那 么 在 运行 时 直接 报错 会 不 会 更 好 一 些 ( Pascal 就 是 这 样 处 理 的 ) ? 
6. 编码 规范 通过 缩 进来 约束 怎么 样 ? 比如 像 Python 那 样 通过 缩 进来 表明 逻辑 结构 。 
7. 对 于 我 来 说 ， 阅 读 Python 风 格 的 代码 还 有 些 吃力 ， 因 此 是 不 是 做 成 像 C 语 言 那样 
花 括 号 包 襄 语法 块 、 把 强制 缩 进 的 检查 交 给 编译 器 去 做 比较 好 呢 ? 


我 希望 读者 朋友 们 也 能 够 用 好 语言 开发 者 的 特权 ,不断 去 追求 “更 加 理想 的 
语言 。 呢 ,虽然 我 这 样 讲 可 能 会 被 说 成 是 站 着 说 话 不 腰疼 吧 。 


1.5.2 | 要 设计 怎样 的 运行 方式 


程序 员 中 应 该 无 人 不 知 ， 编 程 语言 有 编译 型 语言 和 解释 型 语言 两 种 。 

编译 型 语言 中 ，C 和 C++ 比较 有 代表 性 。 这 类 语言 通常 会 将 程序 员 编 写 的 程 
序 源 代码 ， 最 终 得 出 为 机 融 码 的 可 执行 文件 。 

但 是 想 要 输出 机 噩 码 的 话 ， 必 须 首 先 掌 握 机 融 码 才 行 。 即 便 学 习 了 机 天 码 并 
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为 了 解决 这 个 问题 ， 一 
般 的 编译 器 都 会 将 依赖 
CPU 生成 的 机 器 码 的 部 
分 单独 归 为 一 个 名 为 后 
端的 模块 ， 根 据 不 同 的 
CPU 可 以 更 换 相应 的 后 
端 ， 就 可 以 支持 其 他 型 
号 的 CPU 了 。 
































代码 清单 1-3 
简单 的 if 语 句 * 





关 

代码 中 的 hoge、piyo 
这 两 个 单词 ， 经 常 在 
输出 无 意义 的 语句 时 
使 用 ( 多 见于 日 本 ， 
英语 国家 则 较 多 使 
foo、bazr )。 详细 请 
参考 以 下 的 页 面 : 
http://avnpc.com/pages/ 
devlang#hoge 










































































分 析 树 示例 





ye 





写 出 了 编译 器 ， 该 编译 涡 也 无 法 输出 供 其 他 型 号 CPU 运行 的 文件 *。 

这 类 生成 机 器 人 码 的 编程 语言 的 优点 是 运行 速度 非常 快 ， 但 是 编译 器 性 能 优化 
的 相关 技术 ， 学 习 起 来 非常 有 难度 。 男 外 ， 在 自制 编程 语言 的 理由 中 曾经 列举 了 
“可 以 用 编程 语言 扩展 应 用 程序 ”这 一 点 ， 而 输出 机 器 码 的 编译 器 并 不 适合 这 个 
用 途 。 因 此 本 书 中 会 选择 解释 型 语言 。 

虽说 “解释 型 语言 ”只 是 一 个 词 ， 但 是 其 实现 方法 又 分 很 多 种 。 
解释 型 语言 的 “解释 ”一 词 源 自 英 语 的 interpreter， 是 “能 进行 翻译 的 物体 ” 
的 意思 。 编 译 需 将 源 代码 翻译 为 机 器 码 ， 之 后 CPU 直接 运行 机 器 码 就 可 以 了 。 与 
此 相对 的 解释 型 语言 ， 则 将 程序 员 编写 的 源 代 码 通过 解释 器 这 一 程序 一 边 解析 一 
边 运 行 一 一 这 种 公式 化 的 定义 看 起 来 只 有 简单 的 两 个 步 又， 但 现实 中 几乎 不 存在 
这 么 单纯 的 解释 型 语言 (DOS 的 批 处 理 脚 本 或 UNIX 的 SHELL 脚本 是 最 接近 解 
释 型 语言 的 定义 的 )。 虽 说 名 为 “解释 型 语言 "， 但 其 中 的 大 多 数 都 会 将 源 代码 临 
时 转换 为 某 种 中 间 形 态 。 

比如 有 代码 清单 1-3 这 样 的 代码 。 


if (a ==: 10) { 
printf ("hoge\n"); 
} else { 
printf ("BiyoNi"); 

















































































































} 














从 机 器 的 角度 看 ， 源 代码 其 实 只 是 一 些 文字 的 排列 组 合 而 已 ， 机 器 是 无 法 直接 
运行 的 。 现 在 大 多 数 编程 语言 ， 都 会 将 代码 转换 成 一 种 叫 分 析 树 〈parse tree， 也 叫 
语法 分 析 树 或 语法 树 ) 的 东西 。 上 面 的 代码 如 果 做 成 分 析 树 ， 则 如 图 1-1 所 示 。 




















else 节点 
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代码 清单 1-4 
Java 的 字 节 码 
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Perl 、Ruby 等 语言 ， 
代码。 
本 书 第 2 章 以 后 所 用 到 的 语 


二 








一 旦 将 代码 转换 为 分 析 树 后 ,分 析 树 将 无 法 再 还 原 回 源 


crowbar 就 是 采用 这 种 运行 方式 的 语言 。 


对 于 这 类 语言 来 说 ， 从 源 代 码 到 分 析 树 的 构建 过 程 还 是 得 称 为 “编译 "。 但 




















不 会 生成 目标 代码 或 目标 文件 ， 所 以 程序 员 《〈 用 户 ) 





股 意 识 不 到 有 编 


是 这 里 的 编译 需 是 在 程序 启动 时 自动 执行 的 。 由 于 分 析 树 会 生成 在 内 存 里 ， 因 此 














译 需 在 执 


行 。 这 类 语言 如 果 存 在 语法 错误 ， 会 在 刚 开 始 运行 时 就 被 报 出 来 ， 这 正 是 源 代码 











被 一 次 性 全 部 读 入 并 构建 分 析 树 的 证 明 。 如 果 是 纯粹 的 解释 
本 或 SHELL 脚本 ， 则 会 运行 到 有 语法 错误 的 地 方才 会 报错 。 
那么 ， 相 对 于 Perl、Ruby 这 样 的 运行 分 析 树 在 Java 等 语 


代 分 析 树 的 则 是 更 底层 的 字 节 码 ， 然 后 











型 语言 ， 如 














型 语言 ， 

















过 解释 带 运 行 字 节 码 。 字 节 码 


批 处 理 脚 


言 中 ， 取 


只 是 一 些 








通 





简单 的 数字 排列 ， 为 了 尽 可 能 地 让 人 读 懂 字 节 码 ， 字 节 码 中 的 所 有 指令 


了 一 些 名 为 助 记 符 (mnemonic ) 的 字符 ， 代 码 清 单 1-3 的 源 代 码 经 过 
处 理 之 后 最 终 会 变 成 代码 清单 1-4 的 样子 ( 源 代码 中 的 printf 改 为 
out .println， 并 使 用 javap 输出 )。 








~\/ 人 上 


都 被 加 上 
这 样 一 番 


System . 





: bipush 10 
:lstoOre 1 

: Load 1 

: bipush 10 
: if icmpne 20 
: getstatic 

«de 

: invokevirtual 

28 

: getstatic 

Lde 

253 


Co 


invokevirtual 











本 书 第 5 章 以 后 所 用 到 的 语言 
在 Java 中 ， 编 译 器 生成 的 字 节 








中 ， 编 





译 器 会 在 程序 启动 时 执行 ， 











Diksam， 就 是 采用 这 种 运行 方式 的 语言 。 
码 会 被 保存 在 class 文件 中 。 但 是 在 Diksam 
因此 字 节 码 保存 于 内 存 中 ， 不 会 生成 类 似 class 








文件 的 东西 。 由 此 可 以 看 出 ， 从 用 户 的 角度 出 发 ， 不 需要 意识 到 Diksam 内 部 其 
实 有 字 节 码 在 执行 。Python 也 是 使 用 了 类 似 的 处 理 机 制 。 
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”补充 知识 “用 户 ” 指 的 是 谁 ? 
前 文 兽 写 道 “因此 程序 员 ( 用 户 












































般 意 识 不 到 有 编译 器 在 执行 。 









































通常 来 说 ， 用 户 是 指使 用 程序 员 编写 的 程序 的 人 ， 但 是 在 这 




















妹 为 我 们 是 要 


























制作 一 门 编程 语言 ， 所 以 本 书 中 的 
程序 员 。 
这 种 指 代 在 操作 系统 、 类 


























户 应 该 是 指使 用 我 们 制作 的 编程 语言 的 人 ， 即 



























































有 读者 会 有 误解 ， 在 此 特别 补充 说 明 一 下 。 


库 、 编 程 语 言 等 面向 程序 员 的 文档 中 经 常 出 现 ， 不 过 可 能 








补充 知识 ”解释 器 并 不 会 进行 翻译 
在 很 多 入 门 书 中 ， 提 到 编译 器 与 解释 器 时 ， 
编译 器 会 将 源 代码 一 


























次 性 全 部 翻译 为 机 器 码 。 


与 此 相对 的 解释 器 ， 不 会 事先 做 一 次 性 翻译 ， 而 是 在 运行 的 同时 ， 


将 源 代 码 翻译 为 机 器 码 。 
请 允许 我 说 句 老实 话 ， 这 样 的 说 明 是 完全 错误 的 。 

















般 会 采用 以 下 说 明 : 


逐 行 分 块 地 

















解释 器 会 将 源码 或 分 析 树 解析 为 字 节 码 这 种 中 间 形 态 ， 并 且 一 边 











解析 一 边 运 行 ，1 














是 解释 器 并 不 会 将 源码 翻译 为 机 器 码 。 
Java 或 .NET Framework 都 具备 在 运行 的 同 
叫 作 “JIT( Just-In-Time ) 编译 ”技术 ， 而 
那么 解释 器 具体 是 如 何 运行 程序 的 呢 ? 读 到 后 面 你 就 会 明白 了 。 








































































































环境 搭建 
医生 搭建 开发 环境 


本 书 的 开发 语言 启 下 





C 语言 ， 辅 助 工具 是 yacc 和 lex。 


时 将 字 节 码 转换 为 机 器 码 的 功能 ， 这 
这 部 分 技术 并 不 0 


UNIX (包含 Linux 等 ) ee 了 开发 所 需 的 yacc 和 lex， 当 然 也 





有 例外 ， 而 Windows 则 默认 没有 预 装 
ee 
那么 ， 下 面 我 们 就 开始 介绍 这 些 软件 的 获取 途径 。 
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过 无 需 担 心 这 些 ， 我 们 完全 可 以 全 部 使 
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1. C 编译 器 
免费 的 C 编译 器 可 以 使 用 GNU 项 目 提供 的 GCC ( GNU Compiler Collec- 
tion )。 


Linux 等 免费 的 UNIX 环境 下 大 多 都 预 装 了 GCC*。Windows 下 可 以 使 用 
最 近 Linux 不 预 装 GCC 
的 情况 似乎 越 来 越 多 了 。 MinGW ( Minimalist GNU for Windows )。 


可 以 从 下 面 的 URL 下 载 。 
http://www.mingw.org/download.shtml 
安装 MinGW 时 ，UNIX 环境 下 的 程序 会 将 构建 ( build ) 时 使 用 到 的 make 工 
具 也 一 并 安装 。 不 过 ， 安 装 完毕 后 可 执行 文件 名 有 点 奇怪 ， 是 mingw32-make 
exe， 我 将 其 复制 并 重 命名 为 gmake . exe 以 方便 使 用 。 


2. cygwin 或 MSYS 
cygwin 是 可 以 运行 在 Windows 上 的 类 UNIX 环境 。 比 如 说 想 在 命令 行 提示 
符 中 列 出 当前 文件 夹 内 的 文件 时 ，Windows ( DOS ) 会 使 用 DIR 指令，UNIX 则 使 
用 1s 指令 。 一 般 用 惯 了 UNIX 的 人 ， 往 往 会 在 Windows 的 命令 行 提示 符 中 不 自觉 
地 项 出 1s 却 尴 众 地 发 现 指 令 不 存在 ， 而 安装 了 cygwin 就 可 以 避免 这 样 的 情况 发 
生 。 那 么 对 于 不 经 常 使 用 UNIX 的 人 还 有 必要 装 cygwin 吗 ? 因为 在 后 文中 提 到 的 
bison 要 使 用 UNIX 中 的 m4 工具 ， 所 以 无 论 是 cygwin 还 是 MSYS ， 至 少 还 是 要 安 
装 其 中 一 个 的 *。MSYS 与 cygwin 都 是 在 Windows 上 模拟 UNIX 环境 的 软件 。 
装 ， 但 似乎 没有 独立 的 安 cygwin 可 以 从 下 面 的 网 址 中 获取 : 


装 包 ， 可 能 会 非常 麻烦 。 



















































































http://cygwin.com/ 
MSYS 可 从 MinGW 页 面 中 下 载 : 
http://www.mingw.org/download.shtml 
此 外 ， 因 为 cygwin 也 包含 GCC， 可 以 没有 MinGW 而 通过 cygwin 安装 
GCC。 但 是 使 用 cygwin 安装 的 GCC 编译 ， 运 行 时 需要 依赖 cygwin1.dll 文件 ,在 
其 他 机 器 运行 还 需要 把 DLL 也 复制 过 去 ， 所 以 还 是 使 用 MinGW 更 方便 。 



































3. bison 
如 果 环 境 无 法 直接 运行 yacc， 可 以 使 用 GNU 项 目 提 供 的 bison。 





http://gnuwin32.sourceforge.net/packages/bison.htm 


Ye. 
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4. flex 
同 理 ， 如 果 环 境 无 法 直接 运行 








http://gnuwin32.sourceforge.net/packages/flex.htm 


lex， 可 以 使 用 lex 的 免费 版 flex。 




































































，。 斯 托 曼 ( Richard Matthew 









































补充 知识 。 关于 bison 与 flex 的 安装 
bison GNU 项 目 提 供 。GNU 项目 是 由 理 查 德 
Stallman ) 创立 的 项 目 ， 目 标 在 于 建立 一 个 完全 相 容 于 UNIX 的 
GNU 项目 提供 的 软件 的 许可 证 为 GPL (通用 公共 许 
License )。 粗 略 地 说 ，GPL 是 这 样 一 种 许可 证 : 
















































































可 所 





e 发行 GPL 的 程序 时 ， 必 须 公 开源 代码 并 且 声 明 源 代码 的 出 处 ; 

















软件 


` 议 ，General Public 





环 CO 

































































e 包含 GPL 源 代码 的 程序 ， 必 须 受 GPL 许可 证 条 款 约束 ; 
e@ 程序 即使 以 动态 链接 方式 使 用 GPL 程序 ， 也 必须 受 GPL 许可 证 条 款 约束 。 不 过 
这 个 限制 在 LGPL 许可 证 ( Lesser GPL ) 中 有 所 放宽 。 
也 就 是 说 ， 你 的 程序 中 只 要 用 到 GPL 的 程序 ， 哪 怕 这 部 分 再 小 ， 你 的 程序 也 会 自 
动 变 成 GPL 程序 ， 必 须 与 源 代码 同时 公开 。 这 对 于 那些 为 了 防止 盗版 而 不 得 不 采取 一 
些 措 施 的 商用 软件 来 说 简直 是 致命 的 。 因 此 也 有 人 戏称 GPL 的 这 个 特性 是 “GPL 传染 ” 

















或 “GPL 病毒 "。 
习 

















bp 么 bison 是 否 也 是 如 此 呢 ? 
件 输出 为 C 语言 格式 的 代码 。 这 晤 
































不 是 说 使 用 








i 














正 呢 ? 关于 bison 输出 的 C 代码 这 


bison 去 制作 编程 语言 ， 所 做 出 的 


点 


后 文 会 有 说 日 
有 的 C 代码 中 会 包含 一 











日 ，bison 








些 


的 作用 是 将 用 户 编写 的 配置 文 











属于 bison 的 代码 。 那 么 是 














编程 语言 在 发 行 上 也 必须 遵守 GPL 许可 





Pp 





Jy 











是 GPL 的 一 个 特 

















束 。 此 处 在 GNU 项 目 














关 GPL 的 FAQ 页 面 


中 有 如 下 的 记载 : 
































例 ， 可 以 不 受 GPL 许可 证 约 


碰巧 的 是 ，Bison 也 可 以 用 于 开发 非 自 由 软件 。 这 是 因为 我 们 明确 允许 在 
Bison 的 输出 结果 中 包含 的 Bison 的 标准 解析 程序 可 以 不 受 限 制 。 我 们 做 此 决 
定 ， 是 因为 已 经 存在 与 Bison 类 似 的 工具 被 用 于 非 自 由 软件 的 开发 。 

http://www.gnu.org/licenses/gpl-faq.ja.html 


























另 一 方面 ，flex 由 
伯克利 分 校 开 发 的 软 从 














时 ， 文 档 中 必须 要 附 力 





是 遵循 BSD 许可 订 





0 BSD 的 版 权 信 息 。 





flex 会 像 bison 一 样 输出 C 代码 ， 这 

















flex 的 代码 。 但 是 这 音 
COPYING 文件 





中 有 这 




















样 的 描述 ， 





E ( Berkeley Software Distribution ， 加 州 大 学 


套件 集合 ) 的 〈 不 是 修订 版 BSD )。BSD 六 


里 的 C 代码 也 像 bison 








F 可 证 的 程序 





下 








次 发 行 




















样 ， 会 包含 一 些 属 





分 代码 并 不 需要 附加 BSD 的 版 权 信 息 。 





为 




















flex-2.5.34 携带 的 


Note that the“flex.skl” scanner skeleton carries no copyright notice. You are free 


to do whatever you please with scanners generated using flex; for them, you are not 


even bound by the above copyright. 
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1.6.2 | 本 书 涉及 的 源 代码 以 及 编译 器 


本 书 所 涉及 的 源 代码 ， 可 以 在 作者 的 网 站 上 下 载 : 
lie re / /eae eon/ eevee eeles 
在 开始 撰写 本 书 之 前 ，crowbar 和 Diksam 就 已 经 存在 一 些 公 开 的 版 本 了 ， 
本 书 所 用 到 的 代码 都 对 其 进行 了 重新 的 整理 和 修正 ， 因 此 本 书 相 关 的 代码 将 重 
新 以 pook_ver 作为 版 本 号 。 比 如 本 书 最 开始 制作 的 crowbar 的 版 本 号 就 是 


crowbar book ver.0.1。 
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2.1 | yaccllex 是 什么 





如 前 文 所 述 ， 本 书 会 使 用 yacc 和 1lex 这 两 个 工具 。 本 章 中 将 利用 yacclex 尝 


试 编写 一 个 简单 的 计算 器 程序 。 




















一 般 编程 语言 的 语法 处 理 ， 都 会 有 以 下 的 过 程 。 





1. 词法 分 析 


将 源 代码 分 割 为 若干 个 记号 (token ) 的 处 理 。 


2. 语法 分 析 


即 从 记号 构建 分 析 树 (parse tree ) 的 处 理 。 分 析 树 也 叫 作 语法 树 (syntax 


严格 ， 包 含 代码 中 所 ” tree ) 或 抽象 语法 树 ( abstract syntax tree，AST ) *。 











有 记号 的 叫 作 分 析 树 或 























语法 树 ， 将 一 些 无 用 记 。 3. 语义 分 析 


号 剔除 的 才 叫 作 抽 象 语 
法 树 ， 本 书 中 并 没有 特 




















经 过 语法 分 析 生 成 的 分 析 树 ， 并 不 包含 数据 类 型 等 语义 信息 。 因 此 在 语义 分 








人 析 阶 段 ， 会 检查 程序 中 是 否 含有 语法 正确 但 是 存在 逻辑 问题 的 错误 。 





一 般 来 说 执行 语义 分 析 时 主要 会 做 数据 类 型 的 解析 以 及 错误 检查 ， 但 本 书 中 








使 用 的 crowbar 语言 并 没有 设置 变量 类 型 ， 因 此 也 不 会 进行 数据 类 型 的 检查 ， 所 





以 crowbar 并 不 存在 一 个 明确 的 语义 分 析 阶 段 ( Diksam 中 是 存在 这 个 阶段 的 ， 位 
于 fix_tree.c 源 文 件 中 ， 请 参考 本 书 6.3.4 节 )。 


4. 生成 代码 





如 果 是 C 语言 等 生成 机 顺 码 的 编译 需 或 Java 这 样 生 成 字 节 码 的 编译 咒 ， 在 分 


析 树 构建 完毕 后 会 进入 代码 生成 阶段 。 





比如 说 有 如 下 的 代码 : 


i (a = 10) 1 


} 
} 


分 割 为 记号 


ye 








Delmer (Wesse Nm) 
else { 
Sea (Wao Na) 





执行 词法 分 析 后 , 将 被 分 割 为 如 图 2-1 所 示 的 记号 ( 每 一 个 块 就 是 一 个 记号 ): 
EE 


对 此 进行 语法 分 析 后 构建 的 分 析 树 ， 如 图 2-2 所 示 ( 同 图 1-1 )。 
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if 语句 的 分 析 树 


也 称 为 扫描 器 ( lexer 或 


scanner ) 


最 近 这 样 的 例子 还 有 
Ruby 的 VM 的 YARV， 
即 “Yet Another Ruby 
VM” 的 缩写 ， 还 有 
YAML 起 初 也 是 叫 作 
“Yet Another Markup 
Language "。 
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执行 词法 分 析 的 程序 称 为 词法 分 析 器 ( lexical analyzer ) *。lex 的 工作 就 是 村 
据 词 法 规则 自动 生成 词法 分 析 顺 。 

执行 语法 分 析 的 程序 则 称 为 解析 器 ( parser )。yacc 就 是 能 根据 语法 规则 自动 
生成 解析 器 的 程序 。 

顺便 说 一 下 ，yacc 是 “Yet Another Compiler Compiler” 的 缩写 。 顾 名 思 义 ， 
Compiler Compiler 就 是 生成 编译 器 的 编译 器 。yacc 其 实 只 能 生成 编译 器 的 一 部 分 
(解析 器 部 分 )， 却 自称 编译 器 的 编译 器 ， 未 免 有 些 名 不 副 实 。 而 在 yacc 诞生 时 还 因 
为 存在 其 他 几 个 编译 器 的 编译 器 ， 所 以 yacc 的 作者 干脆 取 “ 又 一 个 ( Yet Another ) 编 
译 需 的 编译 器 ”之 意 ， 起 名 为 yacc*。lex 则 只 是 简单 地 取 自 lexical analyzer。 

yacc 和 lex 一 起 使 用 ， 可 以 将 一 个 特殊 格式 的 定义 文件 输出 为 C 语言 代码 。 

因为 两 者 都 是 很 老 的 工具 ， 所 以 数据 传递 都 采用 全 局 变量 的 方式 ， 现 在 看 起 
来 实在 有 些 简陋 。 即 便 如 此 ， 至 少 yacc 仍然 作为 Perl 、Ruby 等 语言 的 语言 处 理 
需 活 跃 在 第 一 线 。 词 法 分 析 需 则 相对 简单 ， 完 全 可 以 自己 编写 ， 所 以 正式 的 编程 
语言 一 般 都 不 会 使 用 lex。 

yacc 与 lex 在 UNIX 的 标准 环境 下 大 多 都 已 经 预 装 了 ， 在 Windows 等 环境 
一 般 没 有 预 装 ， 所 以 需要 使 用 其 免费 的 蔡 代 品 bison 和 flex ( 获得 方法 请 参考 
1.6.1 市 )。 


补充 知识 。 词法 分 析 器 与 解析 器 是 各 自 独 立 的 

如 前 文 所 述 ， 源 文件 的 语法 分 析 ， 首 先 要 经 过 词法 分 析 器 分 割 为 记号 ， 然 后 才 经 过 
解析 器 做 语法 分 析 ， 是 这 样 一 个 分 工 合 作 的 过 程 。 
常常 有 人 会 对 于 C 或 Java 提出 这 样 的 疑问 : 


1 

















































































































a+t+++++b; 
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这 行 代 码 明 明 可 以 理解 为 a++ + ++b， 为 什么 编译 器 还 会 报错 呢 ? 
下 是 因为 有 了 前 文 所 说 的 词法 分 析 器 与 解析 器 的 分 工 合作 机 制 ， 所 以 产生 错误 也 就 
不 难 理解 了 。 因 为 词法 分 析 器 先 于 语法 分 析 器 运行 ， 在 词法 分 析 阶 段 还 无 法 获得 C 或 
Java 的 语法 规则 ， 代 码 就 会 被 分 割 成 a ++ ++ + b， 从 而 导致 报错 。 


JP 区 试 做 一 个 计算 器 


向 不 了 解 yacc/lex 的 人 介绍 其 功能 的 话 ， 与 其 一 上 来 就 举 “用 yacc/lex 制作 
编程 语言 ”的 例子 ， 不 如 先 从 一 些 简单 的 例子 讲 起 比较 好 。 所 以 我 们 以 一 个 简单 
的 “计算 器” 为 例 做 介绍 。 

将 计算 器 作为 yacc/lex 的 示例 实在 有 些 老 套 ， 但 是 又 很 实用 。Windows 都 会 
预 装 一 个 带 有 图 形 界 面 的 计算 器 软件 ， 仔 细 想 来 ，PC 上 明明 有 好 用 的 键盘 ， 却 
还 要 用 鼠标 去 一 个 一 个 点 计算 器 上 的 按钮 未 免 有 些 傻 ", 正 因为 Windows 的 计算 器 
不 好 用 ， 所 以 有 很 多 人 会 选择 使 用 普通 的 计算 器 。 可 明明 眼前 就 摆 着 高 性 能 的 电 
脑 ， 偏 要 用 买 来 的 计算 器 ， 同 样 也 显得 很 奇怪 ， 更 不 要 说 还 有 “附带 计算 器 功能 
的 鼠标 垫 ” 这 种 创意 产品 ， 就 更 加 本 来 倒置 了 。 无 论 是 Windows 自 带 的 计算 器 ， 
还 是 从 日 杂 店 买 来 的 计算 器 ， 都 从 上 面 看 不 到 运算 符号 的 优先 顺序 ， 也 无 法 直接 
计算 带 括 号 的 式 子 (因为 看 不 到 前 一 个 输入 的 值 )。 几 十 个 数值 求 和 时 ， 你 会 不 
会 担心 万 一 中 间 输 错 了 该 怎么 办 ?我 经 常会 。 

而 我 们 要 制作 的 计算 器 ， 会 通过 命令 行 方式 启动 ， 可 以 通过 键盘 输入 整个 算 
式 ， 然 后 直接 显示 计算 结果 。 因 此 可 以 直观 地 看 到 运算 的 优先 顺序 ， 比 如 输入 

























































































































































































2 

会 得 到 结果 7 而 不 是 9。 因 为 能 看 到 整个 算式 ， 所 以 还 可 以 很 容易 地 检查 有 
没有 输 错 。 

计算 需 的 指令 名 为 mycalc 。 一 个 实际 运行 的 例子 是 这 样 的 (* 是 命令 提 
示 符 ) : 



















































































中 “Windows 的 计算 器 支持 使 用 键盘 输入 , 但 是 有 很 多 初级 用 户 并 不 知道 这 个 功能 , 仍然 用 鼠标 点 击 。 
此 外 一 些 迷 你 键盘 去 掉 了 数字 键盘 区 域 ， 在 上 面 使 用 计算 器 很 不 方便 。 一 一 译 者 注 
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代码 清单 2-1 
mycalc.| 


$$ mycalc 


1+2 
>>3.000000 
1+2*3 


>>7.000000 


虽然 只 用 了 整数 ， 却 输出 


部 完全 使 用 doubl 


lex 





国 记 动 ycalc 


显示 结果 
乘法 与 加 法 的 混合 运算 




















按 运算 优先 顺序 输 


e 进行 运算 。 
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“3.000000” 这样 的 结果 ， 这 是 因为 mycalec 在 内 


lex 是 自动 生成 词法 分 析 需 的 工具 ， 通 过 输入 扩展 名 为 .1 的 文件 ， 输 出 词法 
分 析 融 的 C 语言 代码 。 而 flex 则 是 增强 版 的 lex， 而 且 是 免费 的 。 





词法 分 析 器 是 将 输入 的 字符 串 








义 mycalc 所 用 到 的 记号 。 
mycalc 所 用 到 的 记号 包括 下 列 项 目 : 























分 割 为 记号 的 程序 ， 












































因此 必须 首先 定 


运算 符 。 在 mycalc 中 可 以 使 用 四 则 运算 ， 即 +、-、*、/。 
整数 。 如 123 等 。 
实数 。 如 123 .456 等 。 

个 算式 输入 后 ， 接 着 输入 换行 符 就 会 执行 计算 ， 医 














@ 换行 符 。 
当 设置 为 记号 
在 lex 中 ， 使 月 











[© 


有 正则 表达 式 定 义 记号 。 





此 这 里 的 换行 符 也 应 














为 mycalc 所 编写 的 输入 文件 mycalc.l 如 代码 清单 2-1 所 示 。 








Ls s{ 

2: #include <stdio.h> 

3: #include "y.tab.h" 

4: 

5s Lnt 

6: yywrap (void) 

上 { 

3 return 1; 

9 } 
10: %} 
LL 二 寺 
业 受 M+" return ADD; 
3 Ws return SUB,; 
二 本 return MUL,; 
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关 
关于 lex 的 正则 表达 式 ， 
请 参考 2.2.2 节 。 


ye 

















1 TAN return DIV; 

16; "“\n" return CR; 

17: ([1-9] [0-9]*)|0|([0o-9]+\. [0-9]+) { 
18: double temp; 

193 sscanf (yytext, "$$lf", &temp); 
2.0: yylval .double value = temp; 
213 return DOUBLE LITERAL; 

2 | 

230. [Ne]. 3 

24: . { 

25% fprintf (stderr, "lexical error.\n"); 
26: exit (1) ; 

2 

2 汪 本 














代码 第 11 行为 %%， 此 行 之 前 的 部 分 叫 作 定义 区 块 。 在 定义 区 块 内 ， 可 以 定 
义 初始 状态 或 者 为 正则 表达 式 命名 ( 即使 不 知道 正则 表达 式 的 具体 内 容 也 可 以 命 
名 ) 等 。 在 本 例 中 放置 了 一 些 C 代码 。 

第 2 行 至 第 9 行 , 使 用 ${ 和 名 } 包 于 的 部 分 ， 是 想 让 生成 的 词法 分 析 器 将 
这 部 分 代码 原样 输出 。 后 续 程 序 所 需 的 头 文件 #incluge 等 都 包含 在 这 里 ， 比 
如 第 三 行 用 #include 包含 进来 的 ytab.h 头 文件 ， 就 是 之 后 yacc 自动 生成 的 头 
文件 。 下 面 的 ADD、SUB、MUL、DIV、CR、DOUBLE_LITERAL 等 都 是 在 ytab.h 中 
用 #define 定义 的 安 ， 其 原始 出 处 则 定义 于 mycalc.y 文件 中 ( 详 见 2.2.3 节 )。 
这 些 宏 将 记号 的 种 类 区 分 开 来 。 顺 便 附 上 表 2-1 说 明 记 号 的 具体 含义 。 



















































































记号 含义 

2DD 加 法 ( addition ) 运算 符 + 

SUP 减法 ( subtraction ) 运算 符 - 
Wi 乘法 ( multiplication ) 运算 符 * 
DEV 除法 ( division ) 运算 符 / 

ES 可 车 符 ( carriage return ) 
DOUBLE LITERAL double 类 型 的 字面 常量 ( literal ) 




















5 行 到 第 9 行 定义 了 一 个 名 为 yywrap () 的 函数 。 如 果 没 有 这 个 函数 的 
话 ， 就 必须 手动 链接 lex 的 库 文件 ， 在 不 同 环境 下 编译 时 比较 麻烦 ， 因 此 最 好 
写 上 。 本 书 不 会 再 对 这 个 函数 做 深入 说 明 ， 简 单 知道 其 作用 ， 直 接 使 用 就 可 
以 了 。 
第 12 行 到 27 行 是 规则 区 块 。 读 了 代码 就 能 明白 ， 这 一 部 分 是 使 用 正则 表达 
式 * 去 描述 记号 。 
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在 规则 区 块 中 遵循 这 样 的 书写 方式 : 一 个 正则 表达 式 的 后 面 紧 跟 吞 干 个 空格 ， 
后 接 C 代码 。 如 果 输 入 的 字符 串 匹配 正则 表达 式 ， 则 执行 后 面 的 C 代码 。 这 里 的 
C 代码 部 分 称 为 动作 ( action )。 

在 第 12 一 16 行 中 ,会 找到 四 则 运算 符 以 及 换行 符 ， 然 后 通过 return 返回 
其 特征 符 。 所 谓 特征 符 ， 就 是 上 文 所 述 在 ytab.h 中 用 #define 定义 、 用 来 区 别 
记号 种 类 的 代号 。 

之 前 提 到 了 这 么 多 次 “记号 ”， 其 实 我 们 所 说 的 记号 是 一 个 总 称 ， 包 含 三 部 
分 含义 ， 分别 是 : 

1. 记号 的 种 类 
比如 说 计算 器 中 的 123 .456 这 个 记号 ， 这 个 记号 的 种 类 是 一 个 实数 ( DOUBLE_ 
LITERAL )。 
2. 记号 的 原始 字符 
一 个 记号 会 包含 输入 的 原始 字符 ， 比 如 123.456 这 个 记号 的 原始 字符 就 
是 123.456。 
3. 记号 的 值 
123 .456 这 个 记号 代表 的 是 实数 123.456 的 值 的 意思 。 
对 于 + 或 -这 样 的 记号 来 说 ， 只 需要 关注 其 记号 种 类 就 可 以 了 ， 而 如 果 
是 DOUBLE_LITERAL 记号 ， 记 号 的 种 类 与 记号 的 值 都 必须 传递 给 解析 器 。 

第 17 行 的 正则 表达 式 ， 是 一 个 匹配 “数值 ”用 的 正则 表达 式 。 表 达 式 匹配 
成 功 的 结果 ， 即 上 面 列举 的 记号 三 要 素 中 ,“ 记 号 的 原始 字符 ”会 在 相应 动作 中 
被 名 为 yytext 的 全 局 变量 ( 这 算是 lex 的 一 个 丑 的 设计 ) 引用 ， 并 进一步 使 用 
第 19 行 的 sscanf () 进行 解析 。 

动作 解析 出 的 值 会 存放 在 名 为 yylval 的 全 局 变量 中 (又 丑 一 次 )。 这 个 全 
局 变量 yylval 本 质 上 是 一 个 联合 体 (union )， 可 以 存放 各 种 类 型 记号 的 值 (在 
这 个 计算 器 程序 中 只 有 double 类 型 )。 联 合体 的 定义 部 分 写 在 yacc 的 定义 文件 
mycalc.y 中 。 

到 第 28 行 ， 又 出 现 了 一 次 $$。 这 表示 规则 区 块 的 结束 ， 这 之 后 的 代码 则 被 
称 为 用 户 代码 区 块 。 在 用 户 代 码 区 块 中 可 以 编写 任意 的 C 代码 (例子 中 没有 写 )。 
与 定义 区 块 不 同 ， 用 户 代 码 区 块 无 需 使 用 ${ $} 包裹 。 
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* 因为 后 面 还 会 有 [0- 
9] * 这 样 的 写法 ， 所 以 
严格 讲 ， 匹配 前 面 的 

























































































字符 串 的 匹配 


ye 








区 2 简单 正则 表达 式 讲座 


lex 通过 正则 表达 式 定 义 记号 。 正 则 表达 式 在 Perl 、Ruby 语言 中 广泛 使 用 ， 而 
中 接触 到 。 本 书 的 读 考 可 能 未 必 都 有 这 























UNIX 用 户 也 经 常会 在 编辑 器 或 grep 命令 














样 的 技术 背景 ， 所 以 我 们 在 本 书 涉 及 的 范围 内 ， 对 正则 表达 式 做 一 些 简单 的 说 明 。 





在 代码 清单 2-1 的 第 17 行 中 有 这 样 一 个 正则 表达 式 〈 初 看 可 能 稍微 有 点 复杂 ) : 





([1-9] [0-9]*)|0| ([0-9]+\. [0-9]+) 


首先 ，[ 与 ] 表示 匹配 此 范围 内 的 任意 字符 。 而 [ 
是 完全 一 样 的 。 


写 方 式 。 比 如 写 1-9 与 写 123456789 


] 还 支持 使 用 连接 符 的 缩 


最 初 圆 括号 中 的 [1-9] 代表 匹配 1 一 9 中 任意 一 个 数字 


表 匹 配 0 一 9 的 任意 一 个 数字 。 


在 此 之 后 的 *， 代 表 匹 配 前 面 的 字符 
因此 ，[1-9] [0-9]* 这 个 正则 表达 式 ， 


* 0 次 或 多 次 。 























。 甚 后 的 [0-9] 代 





整体 代表 以 1 一 9 开头 (只 有 1 


位 )， 后 接 0 个 以 上 的 0 一 9 的 字符 。 而 这 正 是 我 们 在 mycalc 中 对 整数 所 做 





















































的 定义 。 
在 表 2-2 中 列举 了 若干 字符 哩 ， 并 展示 其 是 否 匹配 我 们 所 制定 的 整数 规则 。 
字符 串 是 否 为 整数 备注 
5 是 5 匹配 [1-9 
310 是 3 匹配 [1-9]， 后 面 的 10 匹配 [0-9]* 
012 否 头 的 0 不 匹配 [1-9] 
0 否 头 的 0 不 匹配 [1-9] 




















如 上 表 所 示 ，mycalc 不 会 将 012 这 术 


们 的 预期 。 


























和 的 输入 作为 数值 接收 ， 这 完全 符合 我 


但 是 将 0 也 排除 的 话 还 是 有 问题 的 ， 程序 必须 能 接受 所 有 的 实数 。 因 此 在 正 


则 表达 式 中 又 使 用 了 |。| 代表 “或 ”的 意思 。 


第 17 行 的 正则 表达 式 就 被 修正 为 : 


([1-9] [0-9]*) |0| ([0-9]+\. [0-9]+) 














现在 应 该 可 以 明白 前 半 段 正则 表达 式 的 整体 意思 了 ， 即 将 整数 (0 以外) 的 
正则 表达 式 与 0 通过 | 分 成 两 部 分 然后 并 列 〈 加 上 圆 括号 ( 














个 集合 才能 通过 | 与 0 并列 )。 














) 是 将 这 部 分 作为 一 
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后 半 部 分 的 [0-9] +\. [0-9]+ 中 用 到 了 +。* 是 代表 “匹配 前 面 的 字符 0 
次 或 多 次 ”， 而 + 则 是 “匹配 前 面 的 字符 1 次 或 多 次 "， 因 此 这 部 分 整体 代表 
“0 一 9 的 数字 至 少 出 现 一 次 ， 后 接 小 数 点 . 后 又 接 至 少 一 位 0 一 9 数字 ”。 这 些 
与 前 面 整合 起 来 ， 共 同 构 成 了 mycalc 对 于 实数 的 定义 。 

小 数 点 的 书写 不 是 只 写 一 个 . 而 是 写成 了 \., 因为 . 在 正则 表达 式 中 有 特殊 
的 含义 (后 文 即 将 介绍 )， 所 以 需要 使 用 \ 转 义 。[ ] 、* 、+、. 等 这 些 在 正则 表 
达 式 中 有 特殊 含义 的 字符 称 为 元 字符 ， 元 字符 可 以 像 上 文 那 样 用 \ 或 双 引 号 " 进 
行 转 义 。 代 码 的 第 12 ~ 14 行 ， 就 是 使 用 双 引 号 转 义 的 方法 对 乘法 和 加 法 的 运算 
符 进 行 了 定义 。 

第 23 行 的 正则 表达 式 [ \t] 是 对 空格 以 及 制 表 符 进行 匹配 ， 对 应 动作 为 
空 ， 因 此 可 以 忽略 每 一 行 的 空白 字符 。 

第 24 行 的 . 会 匹配 任意 一 个 字符 。 这 里 用 于 检测 是 否 输入 了 程序 不 允许 的 
字符 。 

首先 ，lex 将 输入 的 字符 串 分 割 到 寿 干 个 记号 中 时 ,会 尽 可 能 选择 较 长 的 匹 
配 。 比 如 C 语言 中 同时 有 + 运算 符 和 ++ 运算 符 ， 那 么 当 输 入 ++ 时 ，lex 不 会 匹 
配 为 两 个 + 运算 符 ， 而 是 返回 一 个 ++ (如 果 不 按 这 个 逻辑 ， 程 序 很 难 正常 工作 )。 
如 果 两 个 规则 出 现 同样 长 度 的 匹配 时 ， 会 优先 匹配 前 一 个 规则 。 也 就 是 说 ， 如 果 
输入 字符 直到 最 后 一 条 规则 ( 匹配 任意 字符 ) 才 匹 配 成 功 的 话 ， 说 明 这 个 字符 不 
符合 前 面 所 有 的 规则 ， 是 错误 的 输入 。 

在 表 2-3 中 列举 了 一 些 党 用 的 元 字符 。 元 字符 以 外 的 字符 直接 书写 就 可 以 了 。 


匹配 0 个 或 者 多 个 前 面 的 字符 








































































































lex 中 正则 表达 式 的 元 
字符 























匹配 1 个 或 者 多 个 前 面 的 字符 
匹配 任意 1 个 字符 


[abc] 匹配 a 或 b 或 c 














































































































[a-c] 匹配 a ~ c 的 字符 
[^a-c] 匹配 a ~ c 以 外 的 字符 
于 被 包 衰 的 字符 不 会 被 作为 元 字符 ， 而 是 匹配 其 字面 含义 
NC 转 义 后 面 的 元 字符 
中 正则 表达 式 有 很 多 不 同 的 风格 ，lex 所 使 用 的 风格 支持 使 用 双 引 号 转 义 元 字符 ， 而 常用 的 PCRE 



























































风格 则 只 支持 反 斜 线 转 义 。 





译 者 注 
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yacc 是 自动 生成 语法 分 析 器 的 工具 ， 输 入 扩展 名 为 .y 的 文件 ， 就 会 输出 语 
法 分 析 需 的 C 语言 代码 。bison 则 是 GNU 项 目 所 发 布 的 yacc 的 功能 扩充 版 。 
mycalc 中 yacc 的 输入 文件 mycalc.y 如 代码 清单 2-2 所 示 。 














代码 清单 2-2 1 

mycalc.y eS 
2: #include <stdio.h> 
3: #include <stdlib.h> 
4: #define YYDEBUG 1 
5: %} 
6: Sunion { 
7: int int value; 
8: double double value; 
3 } 
10: $token <double value> DOUBLE LITERAL 
11: %token ADD SUB MUL DIV CR 
12: $type <double value> expression term primary expression 
13: 各 各 
14: line list 
15 line 
16 | line list line 
17 . 
18: line 
19: expression CR 
20 { 
21: Brintf ("ssSLfNAY, $1); 
22: } 
23: expression 
24 term 
25 | expression ADD term 
26 { 
27: $$ = $1 + $3; 
28 } 
29: | expression SUB term 
30: { 
31: $$ = $1 - $3; 
32: } 
E 全 各 ; 区 
34: term 
S53 : primary expression 
36: | term MUL primary expression 
S37 { 
38: $$ = $1 * $3; 
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39 : } 

40: | term DIV primary expression 
41: { 

42: $$ = $1 / $3; 

43: } 

44: : 

45: primary expression 

46: : DOUBLE LITERAL 

如 这 各 > 

48: %% 

49: int 

50: yyerror(char const *str) 

51: { 

52: extern char *yytext; 

53 : fprintf (stderr, "parser error near %s\n", yytext); 
SA return 0; 

55: } 

SE 

57: int main (void) 

S58: { 

59: extern int yyparse (void); 

60: extern FILE *yyin; 

613 

623 yyin = stdin; 

63: if (yyparse()) { 

64: fprintf (stderr, "Error ! Error ! Error !I\n"); 
65: exit (1) ; 

66 : } 

.73 } 











第 1 一 5 行 与 lex 相同 , 使 用 %{%} 包 于 了 一 些 C 代码 。 

第 4 行 有 一 句 #define YYDEBUG 1， 这 样 将 全 局 变量 yydebug 设置 为 一 
个 非 零 值 后 会 开启 Debug 模式 ， 可 以 看 到 程序 运行 中 语法 分 析 的 状态 。 我 们 现在 
还 不 必 关 心 这 个 。 

第 6 一 9 行 声明 了 记号 以 及 非 终 结 符 的 种 类 。 正 如 前 文 所 写 ， 记 号 不 仅 需要 
包含 种 类 ， 还 需要 包含 值 。 记 号 的 值 可 能 会 有 很 多 类 型 ， 这 些 类 型 都 声明 在 联合 
体 中 。 本 例 中 为 了 方便 说 明 ， 定 义 了 一 个 int 类 型 的 int_value 和 double 类 
型 的 aouble_ value， 不 过 目前 还 没有 用 到 int_value。 

非 终结 符 是 由 多 个 记号 共同 构成 的 ， 即 代码 中 的 line_1ist、1ine、 
expression、term 这 些 部 分 。 为 了 分 割 非 终结 符 , 非 终结 符 最 后 都 会 以 一 个 特 
殊 记 号 结尾 。 这 种 记号 称 作 终结 符 。 
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第 10 一 11 行 是 记号 的 声明 。mycalc 所 用 到 的 记号 种 类 都 在 这 里 定 
义 。ADD、SUB、MUL、DIV、CR 等 记号 只 需要 包含 记号 的 种 类 就 可 以 了 ， 而 种 
类 为 DOUBLE LITERAL 的 记号 ， 其 种 类 被 指定 为 <double value>。 这 里 
的 double_value 是 来 自 上 面 代码 中 sunion 联合 体 的 一 个 成 员 名 。 

第 12 行 声明 了 非 终 结 符 的 种 类 ， 并 指明 了 这 些 非 终结 符 的 值 在 联合 体 中 对 
应 的 成 员 名 。 

与 lex 一 样 ，13 行 的 $$% 为 分 界 ， 之 后 是 规则 区 块 。yacc 的 规则 区 块 ， 由 语 
法 规则 以 及 C 语言 编写 的 相应 动作 两 部 分 构成 。 

在 yacc 中 ,会 使 用 类 似 BNF ( 巴 科斯 范式 ，Backus Normal Form ) 的 规范 来 
局 写 语法 规则 。 

计算 需 程序 因为 规则 部 分 中 混杂 了 动作 ， 阅 读 起 来 有 点 难度 ， 所 以 在 代码 清 
单 2-3 中 ， 仅 仅 将 规则 部 分 抽出 ， 并 加 入 了 注释 。 
































TS 

















代码 清单 2-3 
计算 器 的 语法 规则 





: line list /* 多 行 的 规则 */ 
: line /* 单行 */ 
| line_1ist line /* 或 者 是 一 个 多 行 后 接 单行 */ 














: expression CR /* 一 个 表达 式 后 接 换行 符 */ 


1 

2 

3 

4: E 

5: line /* 单行 的 规则 */ 
6 

7 区 

8: expression /* 表达 式 的 规则 */ 
9 


: : term /* 和 项 */ 
10: | expression ADD term /* 




















或 表达 式 + 和 项 */ 
了 | expression SUB term /* 或 表达 式 - 和 项 */ 
区 二 
13: term /* 和 项 的 规则 */ 
14: : Primary expression /* 一 元 表达 式 */ 
15: | term MUL Primary expression /* 或 和 项 * 一 元 表达 式 */ 
16: | term DIV primary expression /* 或 和 项 / 一 元 表达 式 */ 
二 汪汪 家 
18: primary_expression /* 一 元 表达 式 的 规则 */ 
19 : : DOUBLE LITERAL  /* 实数 的 字面 常量 */ 
20: 














为 了 看 得 更 清楚 ， 可 以 将 语法 规则 简化 为 下 面 的 格式 : 
A 


we 
| D 


即 A 的 定义 是 B 与 C 的 组 合 ， 或 者 为 D。 
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第 1 一 4 行 的 书写 方式 ， 是 为 了 表示 该 语法 规则 在 程序 中 可 能 会 出 现 一 次 以 
上 。 在 mycalc 中 ,输入 一 行 语句 然后 襄 回 车 键 后 就 会 执行 运算 ， 之 后 还 可 以 继 
续 输入 语句 ， 所 以 需要 设计 成 支持 出 现 一 次 以 上 的 模式 。 

另外 ， 请 注意 在 上 面 的 计算 需 的 语法 规则 中 ， 语 法 规则 本 身 就 包含 了 运算 符 
的 优先 顺序 以 及 结合 规律 。 如 果 不 考 虑 运算 符 的 优先 顺序 (乘法 应 该 比 加 法 优先 
执行 )， 上 文 的 语法 规则 应 该 写成 这 样 。 

expression /* 表达 式 的 规则 */ 
Primary_ expression /* 一 元 表达 式 */ 
expression ADD expression /* 或 表达 式 + 表达 式 */ 
expression SUB expression /x* 或 表达 式 - 表达 式 */ 


expression MUL expression /* 或 表达 式 * 表达 式 */ 
expression DIV expression /* 或 表达 式 / 表达 式 */ 



































primary expression /* 一 元 表达 式 的 规则 */ 
: DOUBLE LITERAL  /* 实数 的 字面 常量 */ 




















那么 在 这 样 的 语法 规则 下 ，yacce 是 如 何 运作 的 呢 ? 我 们 以 代码 清单 2-3 为 例 
一 起 来 看 看 吧 。 

大 体 上 可 以 这 样 说 ，yacc 所 做 的 工作 ， 可 以 想象 成 一 个 类 似 “ 俄 罗斯 方块 ” 
的 过 程 。 

首先 ，yacc 生成 的 解析 器 会 保存 在 程序 内 部 的 栈 ,在 这 个 栈 中 ， 记 号 就 会 像 
俄罗斯 方块 中 的 方块 一 样 ， 一 个 个 堆积 起 来 。 

比如 输入 1 + 2 * 3, 词法 分 析 带 分 割 出 来 的 记号 (最初 是 1) 会 由 右边 进 
入 栈 并 堆积 到 左边 。 

















Next 


像 这 样 一 个 记号 进入 并 堆积 的 过 程 ， 叫 作 移 进 ( shift )。 
mycalc 所 有 的 计算 都 是 采用 double 类 型 ， 所 以 记号 1 即 是 DOUBLE 
LITERAL。 当 记号 进入 的 同时 ,会 触发 我 们 定义 的 规则 : 





primary expression 
: DOUBLE LITERAL 


然后 记号 会 被 换 成 primary_expression。 
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Next 


加 
primary expression 


类 似 这 样 触发 某 个 规则 并 进行 置换 的 过 程 ， 叫 作 归 约 ( reduce )。 
primary_expression 将 进一步 触发 规则 : 





Eeem 
EnaeyEs>Eessicnm 


然后 归 约 为 tezrm。 





Next 


再 进一步 根据 规则 : 


expression 
-term 


最 终 被 归 约 为 一 个 expression。 


Next 


接 下 来 ， 记 号 + 进入。 在 进入 过 程 中 ， 由 于 没有 匹配 到 任何 一 个 规则 ， 所 以 
只 好 老 老 实 实 地 进行 移 进而 不 做 任何 归 约 。 


Next 








expression 加 5 


接 下 来 是 记号 2 进入 。 





Next 
经 过 上 述 同 样 的 规则 ， 记 号 2 (DOUBLE LITERAL ) 会 经 过 primary_ 
expression 被 归 约 为 term。 
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Next 


加 
expression term 


这 里 记号 2 本 应 该 匹配 到 如 下 的 规则 : 


expression 
| expression ADD term 


yacc 和 俄罗斯 方块 一 样 ， 可 以 预先 读 取 下 一 个 要 进入 的 记号 ， 这 里 我 们 就 可 
以 知道 下 一 个 进入 的 会 是 * ,因此 应 当 考 虑 到 记号 2 会 匹配 到 term 规 则 的 可 能 性 。 





























LE 
| term MUL primary expression 


归 约 完毕 后 再 一 次 移 进 。 
Next 


加 
expression term 较 包 


接 下 来 记号 3 进入 ， 


被 归 约 为 primary_expression 后 ， 


Next 


Next 


expression term primary expression 


~ 





term、*、primary _expression 这 一 部 分 将 匹配 规则 : 


Erevan 
| term MUL primary expression 


被 归 约 为 term。 
Next 


expression term 


Yy 
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归 约 发 生 时 栈 的 动作 


























之 后 ，expression、+、term 又 会 匹配 规则 


expression 
| expression ADD term 


最 终 被 归 约 为 expression。 


Next 


每 次 触发 归 约 时 ，yacce 都 会 运行 该 规则 的 相应 动作 。 比 如 乘法 对 应 执行 的 规 
则 如 下 文 所 示 。 


34: term 

SS | term MUL primary expression 
SL { 

38: SS 

BSR } 





动作 是 使 用 C 语言 书写 的 ， 但 与 普通 的 C 语 言 又 略 有 不 同 ， 摊 杂 了 一 
些 $S$、$1、8$3 之 类 的 表达 式 。 

这 些 表 达 式 中 ,$1、$3 的 意思 是 分 别 保存 了 term 与 primary_expression 
的 值 。 即 yacc 输出 解析 顺 的 代码 时 ， 栈 中 相应 位 置 的 元 素 将 会 转换 为 一 个 能 表述 
元 素 特征 的 数组 引用 。 由 于 这 里 的 $2 是 乘法 运算 符 〈* )， 并 不 存在 记号 值 ， 因 
此 这 里 引用 $2 的 话 就 会 报错 。 

$1 与 $3 进行 乘法 运算 , 然后 将 其 结果 赋 给 $$, 这 个 结果 值 将 保留 在 栈 中 。 在 
这 个 例子 中 ， 执 行 的 计算 为 2 * 3， 所 以 其 结果 值 6 会 保留 在 栈 中 〈 如 网 2-3 )。 

$1 $2 $3 


mm 




















reduce | SS=S1*83 


$$ 


是 ,8$1 与 $3 对 应 的 应 该 是 term 和 primary_expression, 而 不 是 2 与 3 
这 样 的 DOUBLE_LITERAL 数值 才 对 呀 ， 为 什么 会 作为 2* 3 来 计算 呢 ? 
可 能 会 有 人 提出 上 面 的 疑问 吧 。 这 是 因为 如 果 没 有 书写 动作 ，yacc 会 自动 
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补 全 一 个 { $$ = $1; } 的 动作 。 当 DoUBLE LITERAL 被 归 约 为 primary_ 
expression、primary expression 被 归 约 为 term 的 时候,，DOUBLE 
LITERAL 包含 的 数值 也 会 被 继承 。 


34: term 





SE 3 oho ee (Snelenl 























$$ = $1; /* 自动 补 全 的 动作 */ 


45: primary expression 
46: ; DOUBLE LITERAL 








E52 /* 自动 补 全 的 动作 */ 























$$ 与 $1 的 数据 类 型 , 分 别 与 其 对 应 的 记号 或 者 非 终结 符 的 类 型 一 致 。 比 如 ， 
DOUBLE_LITERAL 对 应 的 记号 被 定义 为 : 





SEOKenEEaeuoheEaUes DOUBLE LITERAL 














expression、term、primary expression 的 类 型 则 为 : 
11: stype <double value> expression term primary expression 

这 里 的 类 型 被 指定 为 <double_value>， 其 实 是 使 用 了 在 sunion 部 分 声 
明 的 联合 体 中 的 double _ value 成 员 。 

由 于 我 们 以 计算 需 为 例 ， 计 算 顺 的 动作 会 继续 计算 得 出 的 值 ， 但 仅 靠 这 些 还 
不 足以 制作 编程 语言 。 因 为 编程 语言 中 都 会 包含 简单 的 循环 ， 而 语法 分 析 只 会 运 
行 一 次 ， 所 以 动作 还 要 支持 循环 处 理 同一 处 代码 才 行 。 

因此 在 实际 的 编程 语言 中 ,会 从 动作 中 构建 分 析 树 。 这 部 分 处 理 的 方法 会 在 
后 面 的 章节 中 介绍 


区 到 生成 执行 文件 


接 下 来 ， 让 我 们 实际 编译 并 链接 计算 器 的 源 代 码 ， 生 成 执行 文件 吧 。 
在 标准 的 UNIX 中 ， 按 顺序 执行 下 面 的 指令 ( % 是 命令 行 提示 符 )， 就 会 输 
出 名 为 mycalc 的 执行 文件 。 


% yacc -dv mycalc.y 国运 行 Yacd| 
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当 lex mycalc.1 运行 ex 




















ee eo meeule vole ese Ye 使 用 





ME 


如 果 在 Windows 的 环境 下 ， 参 考 1.6.1 节 中 的 说 明 ， 需 要 安装 gcc、bison、 
flex， 然 后 运行 下 面 的 指令 ( C:\Test> 是 命令 行 提示 符 )。 


C:\Test>bison --yacc -dv mycalc.y bison 代替 yacc 并 运行 
Ge \ ese ees mee el 运行 flex 









































Cc \nTesE=sde =0 me yt, le ne 
这 个 过 程 中 会 生成 奉 十 文件 。 其 流程 以 图 片 表 示 的 话 ， 如 图 2-4 所 示 。 


图 24 4 
yaccllex 的 编译 mcalc 了 | 一 入 7) 和 | 7 = 








下 到 
pa RN 网 
链接 器 “人 一 一 | 执行 文件 


( Jj#include 
A 


了 pa > 4 
人 >> 


y.tab.c 中 包含 yacc 生成 的 语法 分 析 器 的 代码 ，lex.yy.c 是 词法 分 析 器 的 代码 。 
为 了 将 mycalc.y 中 定义 的 记号 及 联合 体 传递 给 lex.yy.c，yacc 会 生成 ytab.h 这 个 
头 文件 。 

此 外 ， 作 为 C 语言 程序 当然 要 有 main () 函数 ， 在 mycalc 中 main() 位 于 
mycalcy 的 用 户 代 码 区 块 (第 49 行 以 后 )， 最 终 编译 器 会 负责 合并 代码 ， 所 以 这 里 
的 main () 与 其 他 .c 文 件 分 离 也 不 要 紧 。 在 main () 函数 中 的 全 局 变量 yyin 可 
以 设 定 输入 文件 ， 调 用 yyparse () 函数 。 

由 于 我 们 使 用 bison 蔡 代 了 yacc， 默 认 生 成 的 文件 就 不 是 ytab.c 和 ytab.h， 
而 是 mycalc.tab.c 和 mycalc.tab.h。 所 以 在 上 例 中 添加 了 --yacc 参数 ， 可 以 让 
bison 生成 与 yacc 同名 的 文件 。 本 书 为 了 统一 ，bison 会 始终 带 上 - -yacc 参数 。 


2.2.5 | 理解 冲突 所 代表 的 含义 


实际 用 yacc 试 做 一 下 解析 器 ， 可 能 会 被 冲突 (conflict ) 问题 困扰 。 所 谓 痢 
突 ， 就 是 遇 到 语法 中 模糊 不 清 的 地 方 时 ，yacc 报 出 的 错误 。 
比如 CC 语言 的 if 语句， 就 很 明显 有 语法 模糊 问题 。 
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ey (lS ES (0) 
Prilnefl( 在 这 里 GDe AONn 











ese 
Dra El Ea do se 


上 面 的 代码 中 ， 我 们 不 清楚 最 后 的 else 对 应 的 究竟 是 哪 一 个 i-£f， 这 就 
冲突 。 

yacc 运行 时 ， 遇 到 下 面 任意 一 种 情况 都 会 发 生 冲 突 。 

@ 同时 可 以 进行 多 个 归 约 。 

® 满足 移 进 的 规则 ， 同 时 又 满足 归 约 的 规则 。 

前 者 称 为 归 约 / 归 约 (reduce/reduce ) 冲突 ， 后 者 称 为 移 进 / 归 约 (shift/ 
reduce ) 冲突 。 

即便 发 生 冲 突 ，yacc 仍然 会 生成 解析 需 。 如 果 存 在 归 约 / 归 约 冲突 ， 则 优先 
匹配 前 面 的 语法 规则 ， 移 进 / 归 约 冲突 会 优先 匹配 移 进 规 则 。 很 多 书 会 写 归 约 / 
归 约 冲突 是 致命 错误 ， 而 移 进 / 归 约 冲突 则 人 允许， 这 两 者 的 确 是 存在 严重 程度 的 
差别 ， 但 是 在 我 来 看 ， 无 论 发 生 哪 一 种 冲突 都 是 难以 容忍 的 ， 我 恨不得 消灭 代码 
中 所 有 的 冲突 问题 。 

yacc 运行 时 可 以 附带 -v 参数， 标准 yacc 会 生成 y.output 文件 ( bison 则 会 将 
输入 文件 名 中 的 扩展 名 .y 替换 为 .output 并 生成 )。 

这 个 y.output 文件 会 包含 所 有 的 语法 规则 、 解 析 器 、 所 有 可 能 的 分 支 状态 以 
及 编译 器 启动 信息 。 

那么 我 们 实际 做 出 一 个 冲突 ， 然 后 观察 一 下 y.output 文件 吧 。 

将 代码 清单 2-2 中 的 语法 规则 


23: expression 











6 


















































WE 





















































24: ee 


25: | expression ADD term 将 这 里 的 ADD 
更 改 为 下 文 所 示 : 

23: expression 

24: :Crm 


25E | expression MUL term 
变更 后 会 产生 3 个 移 进 / 归 约 冲突 。 


svacee cr em eal 
CGIEICEsE shiet /eduee 
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代码 清单 2-4 
y.output ( 前 半 部 分 ) 












































然后 再 看 youtput 文件 。 

根据 yacc 或 bison 的 版 本 与 语言 设置 ，y.output 的 输出 会 有 微妙 的 区 别 。 这 
里 以 bison2.3 英文 模式 为 例 ( 为 了 节约 纸张 将 空 行 都 去 掉 了 )。 日 语 环境 下 ， 
“Grammar” 会 变 成 “文法 ”等 ， 错 误 信 息 也 都 会 显示 为 日 语 。 

总 体 来 说 ，y.output 文件 的 前 半 部 分 看 起 来 基本 都 会 是 下 面 这 个 样子 (代码 
清单 2-4 )。 


Terminals which are not used 没有 使 用 ADD 的 警告 


ADD 

















State 5 conflicts: 1 shift/reduce 
State 14 conflicts: 1 shift/reduce 
State 15 conflicts: 1 shift/reduce 


Grammar 
0 $accept: line list $end 
line list: line 
line list line 
line: expression CR 
expression: term 


expression SUB term 
term: primary expression 


由 

旺 

3 

4 

5 expression MUL term 
6 

7 

8 term MUL primary expression 
9 





term DIV primary expression 
10 primary expression: DOUBLE LITERAL 











首先 将 ADD 改 为 MUL 后 ， 开 头 会 出 现 “ADD 没有 被 使 用 ”的 警告 。 下 面 会 
有 3 行 冲突 信息 ， 此 处 后 文 会 细 说 。 再 后 面 的 “Grammar” 跟 着 的 是 mycalc.y 中 
定义 的 语法 规则 。 

mycalc.y 中 可 以 使 用 | ( 竖 线 ， 表 示 或 ) 书写 下 面 这 样 的 语法 规则 : 


me ls Ee 











| line list line 
实际 上 与 下 面 这 种 写法 的 语法 规则 是 完全 一 样 的 。 


Jnmeml EnE 





TS SLS la 

youtput 文件 中 ， 会 给 每 一 行规 则 附 上 编号 。 

上 面 的 规则 0， 是 yacc 自动 附加 的 规则 ，$accept 代表 输入 的 内 容 ，$end 
代表 输入 结束 ， 目 前 还 不 需要 特别 在 意 这 个 问题 。 
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youtput 文件 的 后 半 部 分 会 将 解析 胡可 能 遇 到 的 所 有 “状态 ”全 部 列举 出 来 
(代码 清单 2-5 )。 


代码 清单 2-5 Ete 0 
y.output ( 后 半 部 分 ) 














0 $accept: . line list $end 


DOUBLE LITERAL shift, and go to state 1 


line list go to state 2 
line go to state 3 
expression go to state 4 
term go to state 5 
primary expression go to state 6 


state 1 


10 primary expression: DOUBLE LITERAL 


$default reduce using rule 10 (primary expression) 


State 2 


0 $accept: line list . $end 
2 .Lire liets line Tist .11me 


send shift, and go to state 7 
DOUBLE LITERAL shift, and go to state 1 


line go to state 8 
expression go to state 4 
term go to state 5 
primary expression go to state 6 


state 3 


1 1ime list: ine 


$default reduce using rule 1 (line list) 


state 4 


3 line: expression . CR 
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5 expression: expression . MUL term 
6 | expression . SUB term 


SUB shift, and go to state 9 
MUL shift, and go to state 10 
CR shift, and go to state 11 








下 略 

前 文中 有 一 个 俄罗斯 方块 的 比喻 ， 读 者 通过 那个 比喻 可 能 会 这 样 理解 : 解析 
带 在 一 个 记号 进入 栈 后 ， 从 栈 的 开头 一 个 字符 一 个 字符 扫描 ， 如 果 发 现 这 个 记号 
满足 已 有 的 某 个 规则 ， 就 去 匹配 该 规划。 但 其 实 这 样 做 会 让 编译 絮 变 得 很 慢 。 

现实 中 ，yacc 在 生成 解析 融 的 阶段 ， 就 已 经 将 解析 融 所 能 遇 到 的 所 有 状态 都 
列举 出 来 ， 并 做 成 了 一 个 解析 对 照 表 ( Parse Table )， 表 中 记录 了 “状态 A 下 某 种 
记号 进入 后 会 转换 到 状态 B” 这 样 的 映射 关系 ，y.output 的 后 半 部 分 就 罗列 了 所 有 
可 能 的 映射 关系 。 听 说 这 有 点 像 麻 将 中 的 听 牌 ,不 过 因为 我 不 玩 麻 将 ， 所 以 也 不 
是 很 清楚 。 

有 了 这 些 列举 出 的 状态 ， 当 记号 进入 后 ， 就 可 以 很 容易 找到 在 何 种 状态 下 移 

， 或 者 根据 何 种 规则 归 约 。 那 么 对 于 之 前 我 们 故意 做 出 的 冲突 ， 在 我 的 环境 
youtput 开头 会 输出 如 下 信息 : 


State sp conftlietes shrift/reduee 
State 14 conflicts: 1 shift/reduce 
state lb eonfliects shnntt/reduee 


可 以 看 到 state 5 引起 了 冲突 ， 我 们 来 看 一 下 : 


sissiais 





























本 谋 





4 expression: term . 
Secermeterm vm es 
9 | term . DIV primary expression 


Mu nait angdage tornstaten ls 
ES nd tonstatenls 





MUL [reduce using rule 4 (expression)] 
sgqefanmle eduee usinan le (ressiony 


上 例 中 ， 第 一 行 的 state 5 即 为 状态 的 编号 ，1 个 空 行 后 接 下 来 的 3 行 是 
y.output 前 半 部 分 中 输出 的 语法 规则 (语法 规则 还 附加 了 编号 )。 语 法 规则 中 间 
有 .， 代 表 记 号 在 当前 规则 下 能 被 转换 到 哪个 程度 。 比 如 state 5 这 个 状态 下 ， 记 
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号 最 多 被 转换 为 term， 然 后 需要 等 待 下 一 个 记号 进行 归 约 。 

青空 一 行 ， 接 下 来 记录 的 是 当前 状态 下 ， 下 一 个 记号 进入 时 将 如 何 变 化 。 具 
体 来 讲 ， 这 里 当 MUL ( * ) 记号 进入 后 会 进行 移 进 并 转换 为 state 12。 如 果 进 入 的 
是 DIV( / )， 则 同样 进行 移 进 并 转移 到 state 13。 

再 经 过 1 个 空 行 后 下 一 行 是 : 











MUL [reduce using rule 4 (expression)] 
意思 是 当 MUL 进入 后 ， 可 以 按照 规则 4 进行 归 约 。 这 也 就 是 移 进 / 归 约 
冲突 。 
yacc 默认 移 进 优先 ， 所 以 MUL 进入 后 会 转移 到 状态 12。 在 y.output 中 state 
12 是 这 样 的 : 


state 





Seenmm ermv om me ee 
DOUPBTENI ITERAN shat and oo to Statend 


primary expression go to state 16 

而 如 果 是 归 约 的 情况 ， 所 要 参照 的 规则 4 是 这 样 的 : 

4 expression: term 

也 就 是 说 ， 当 记号 被 转换 为 term 后 ， 下 一 个 记号 * 进入 以 后 ，yacc 会 报 
告 有 冲突 发 生 ， 冲 突 的 原因 是 当前 term 既 可 以 继续 进行 移 进 ， 也 可 以 归 约 为 
expression 并 结束 。 而 这 正 是 由 于 我 们 将 ADD 修改 为 MUL 后 ，* 的 运算 优先 级 被 
降低 而 引发 的 混乱 。 

对 youtput 阅读 方法 的 说 明 就 此 告 一 段落 ， 其 实在 实践 中 想 要 探 明 冲突 原因 
并 解决 冲突 ， 是 比较 有 难度 的 。 

因此 即便 表面 上 看 起 来 都 一 样 的 编程 语法 ， 根 据 语法 规则 的 书写 方式 不 同 ， 
yacc 可 能 报 冲突 也 可 能 不 报 冲 突 ( 可 以 参考 后 文 讲 到 的 LALR(1) 语法 规定 )。 比 
如 本 节 开 头 所 说 的 C 语言 中 if else 语法 模糊 的 问题 ， 在 Java 中 就 从 语法 规则 
入 手 回避 了 这 个 冲 窗 。 而 类 似 这 样 的 小 问题 以 及 相应 的 解决 “ 穹 门 ”， 在 自制 编 
程 语 言 中 数不胜数 ， 所 以 从 现实 出 发 ， 模 仿 已 有 的 编程 语言 时 ， 最 好 也 要 多 多 参 
考 其 语法 规则 。 
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错误 处 理 


前 面 的 小 节 中 介绍 了 如 何 应 对 语法 规则 中 的 冲突 问题 ， 即 编 泽 右 制 作 阶段 的 
错误 处 理 。 而 在 自制 编程 语言 时 ， 还 要 考虑 到 使 用 这 门 语 言 编 程 的 人 如 果 犯 了 错 




















误 该 怎么 办 。 
在 稍微 旧 一 点 的 编译 名 书籍 中 ， 和 常常 能 读 到 下 面 这 样 的 文字 。 























e@ 让 用 户 自己 不 断 的 编译 ， 既 浪费 CPU 资源 也 浪费 时 间 ， 因 此 编译 器 最 好 只 经 过 一 


























次 编译 就 能 看 到 大 部 分 错误 信息 。 





















































® 但 是 程序 中 的 一 个 错误 ， 其 原因 可 能 是 其 他 错误 引起 的 可 能 会 引起 错误 信息 
















































































原因 ， 这 其 中 的 平衡 点 是 很 难 掌握 的 。 











的 雪崩 现象 )。 一 边 不 希望 无 用 的 错误 信息 出 现 ， 一 边 又 想 尽 可 能 多 地 显示 错误 的 


然而 时 至 今日 ，CPU 已 经 谈 不 上 什么 “浪费 资源 ”了 ， 因 为 在 多 数 情况 下 ， 


WW 























有 户 一 





访 译 过 程 往往 一 瞬间 就 能 结束 。 那 么 即便 一 次 编译 显示 出 很 多 错误 信息 ,月 


般 也 只 会 看 第 一 条 (我 就 是 这 样 )， 这 样 的 话 ,“ 编 译 带 最 好 只 经 过 一 次 编译 就 能 








看 到 大 部 分 错误 信息 ”也 就 没什么 意义 了 。 
所 以 最 省 事 的 解决 方法 之 一 就 是 ,一旦 出 错 ， 立 即使 用 exit () 退 H 
章节 中 的 crowbar 和 Diksam 都 是 这 样 处 理 的 。 





























之 后 


但 是 对 于 计算 器 来 说 ， 是 需要 与 用 户 互动 ， 如 果 输 错 了 一 点 程序 就 强制 退出 





的 话 ， 对 用 户 也 太 不 友好 了 。 
因此 我 们 可 以 利用 yacc 的 功能 实现 一 个 简单 的 错误 恢复 机 种 
首先 在 mycalc.y 的 非 终 结 符 1ine 的 语法 规则 中 ， 追 加 下 面 的 部 分 。 


line 





EE 





[e) 


xpressnoneen 
人 
人 EN 
} 
| error CR 
人 
Velen 
WE TE OE 




















这 里 新 出 现 的 是 error 记号 。error 记号 是 匹配 错误 的 特殊 记号 。error 
可 以 后 接 CR( 换行 符 )， 这 样 书写 可 以 匹配 包含 了 错误 的 所 有 记号 以 及 行 尾 。 
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动作 中 的 yyclearin 会 丢弃 预 读 的 记号 ， 而 yyerrok 则 会 通知 yacc 程序 
已 经 从 错误 状态 恢复 了 。 
既然 是 有 交互 的 工具 ， 一 般 都 会 使 用 换行 来 分 割 每 次 的 会 话 ， 每 一 个 错误 信 


息 后 加 上 换行 符 应 该 会 4 























显得 更 美观 吧 。 


[2 | 不 借助 工具 编写 计算 器 


至 此 我 们 使 用 yacc 和 lex 制作 了 一 个 计算 絮 ， 可 能 会 有 读者 这 样 想 : 



































@ 我 明明 是 为 了 弄 清 楚 编 程 语 
lex 等 工具 当 作 黑 匣子 使 用 ， 


@ bison 和 二 



































言 的 内 部 机 制 才 要 自制 编程 语言 的 ， 但 是 却 将 yacc 和 







































































这 样 一 来 岂 不 是 达 不 到 目的 了 吗 ? 







































































ex 虽然 都 是 自由 软件 , 但 是 在 项 目 中 客户 和 上 级 是 不 允许 使 用 自由 软件 的 ; 
@ yacc/lex 或 bison/flex 的 版 本 升级 可 能 会 使 程序 无 法 工作 ， 这 很 让 人 讨厌 。 


上 面 每 一 条 理由 都 足够 充分 (上 级 不 允许 使 用 自由 软件 可 能 有 点 不 讲理 ， 但 





















































是 光 嘴 上 说 不 讲理 是 没 法 解决 这 个 问题 的 )。 


此 ， 以 下 我 们 将 不 会 借助 yacc/lex 来 制作 计算 顺 。 


2.3.1 sa 





自制 词法 分 析 器 


首先 是 词法 分 析 器 。 
操作 本 章 的 计算 器 时 ， 会 将 换行 作为 分 割 符 ， 把 输入 分 割 为 一 个 个 算式 。 跨 
数 行 的 输入 是 无 法 被 解析 为 一 个 算式 的 ， 因 此 词法 分 析 器 中 应 当 提供 以 下 的 


复兴 
函数 : 





/* 将 接 下 来 要 解析 的 行 置 入 词法 分 析 器 中 */ 


via Ee Lelaelelae ns)p 


/* 从 被 置 入 的 行 中 ， 分 割 记 号 并 返 








* 和 


E 行 











会 返 











2 


可 END OF LINE 了 





回 
rTOKEN 这 种 特殊 的 记号 








void get token (Token *token); 
get_token() 接受 的 入 口 参数 为 一 个 Token 结构 体 指 针 ， 函 数 中 会 分 割 出 
记号 的 信息 装 和 人 Token 结构 体 并 返回 。 上 面 两 个 函数 的 声明 以 及 Token 结构 体 的 
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定义 位 于 token.h 文件 中 。 
代码 清单 2-6 1: #ifndef TOKEN H INCLUDED 
token.h 2: #define TOKEN H INCLUDED 
3 
4: typedef enum { 
5 BAD _ TOKEN, 
6 NUMBER TOKEN, 
Wa ADD OPERATOR TOKEN, 
8 SUB_OPERATOR TOKEN, 
9 MUL OPERATOR TOKEN, 
10: DIV_ OPERATOR TOKEN, 
11: END OF LINE TOKEN 
12: } TokenKind; 
133 
14: #define MAX TOKEN SIZE (100) 
1 
16: typedef struct { 
1 TokenKind kind; 
18: double value; 
19: char str[IMAX TOKEN SIZE]; 
20: } Token; 
1 
22: void set linel(char *line); 
23: void get token(Token *token); 
24: 
25: #endif /x* TOKEN H INCLUDED */ 
词法 分 析 带 的 源 代码 如 代码 清单 2-7 所 示 。 
代码 清单 2-7 1: #include <stdio.h> 
lexicalanalyzer.c 2: #include <stdlib.h> 
3: #include <ctype.h> 
4: #include "token.h" 
与 生 
6: static char *st line; 
7: Static int st line pos; 
B83: 
9: typedef enum { 
和 3 INITIAL STATUS, 
11: IN_ INT PART STATUS, 
1 DOT_STATUS, 
13: IN FRAC PART STATUS 
14: } LexerStatus; 
土生 
16: void 
17: get _ token (Token *token) 
183 { 






































| 图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 




































































2.3 不 借助 工具 编写 计算 器 | 04 3 
19 : int out pos = 0; 
203 LexerStatus status = INITIAL STATUS ; 
1 char current. char; 
22: 
3 token->kind = BAD TOKEN; 
24: while (st linel[lst line pos] != '\0') { 
25: current char = st linel[lst line pos]; 
26: if ((status == IN INT PART STATUS || status == IN_ FRAC 
PART STATUS) 
全 了 3 && lisdigit (current char) && current char != vA 
283 token->kind = NUMBER TOKEN; 
29 : sscanf (token->str, "%lf", &token->value); 
S30 return; 
1 } 
32; if (isspace(current char)) { 
33: i (current char ss "Nn") { 
34: token->kind = END OF LINE TOKEN; 
B53 return; 
36's } 
37: st_ line post++; 
38: continue; 
39 : } 
40: 
41: if (out pos >= MAX TOKEN SIZE-1) { 
42: fprintf (stderr, "token too long.\n"); 
43: exit (1) ; 
44: } 
45: token->strlout pos] = st linel[lst line pos]; 
46: st line post+t+; 
47: Out postt+; 
48: token->str[out pos] = '\0'; 
49: 
50: if (current char == '+') { 
S51: token->kind = ADD OPERATOR TOKEN; 
SS return; 
535 } else if (current char == '-') { 
54: token->kind = SUB OPERATOR TOKEN; 
SH: return; 
56: } else if (current char == '*') { 
S57 token->kind = MUL OPERATOR TOKEN; 
SB: return; 
59: } else if (current char == '/') { 
60: token->kind = DIV_ OPERATOR TOKEN; 
61: return; 
62: } else if (isdigit (current char)) { 
63: if (status == INITIAL STATUS) { 
64: status = IN INT PART STATUS; 
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654 } else if (status == DOT STATUS) { 
66: status = IN FRAC PART STATUS; 
人 有 
68 : } else if (current char == '.') 
69: if (status == IN INT PART STATUS) { 

7103 status = DOT STATUS; 

71: } else { 

Ty fprintf (stderr, "syntax error.\n"); 
73: Exit (LL) 

74: } 

75: } else { 





一 一 














77: exit (1); 
78: } 

79: } 

80: } 

81: 

82: void 

83: set line(char *line) 
84: { 

85: St li1Ne. = Tine; 
86: st line pos = 0; 
S73 } 

88: 

89: /* 下 面 是 测试 驱动 代码 */ 
90: void 

91: parse line(char *buf) 
92: { 

93: Token token; 

94: 

95: set line(buf); 
96; 

97 : Eo {es} { 

98 : get_ token (&token); 
99: if (token.kind == END OF LINE TOKEN) { 
1003 break; 
101: } else { 























103: } 

104: } 

105: } 

106% 

工人 了 二 半 坝 已 

108: main(int argc, char **argv) 
109: { 

110: char buf [1024]; 

二 
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76: fprintf (stderr, "bad character(%c)\n", current char); 


102: printf ("kind..%d, str..%s\n", token.kind, token.str); 
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TL: while (fgets(buf, 1024, stdin) != NULL) { 
小生 襄 parse line (buf) ; 

114: } 

1 

业 业 咎 过 return 0; 

L173 让 





这 个 词法 分 析 需 的 运行 机 制 为 ， 每 传人 一 行 字符 串 ， 就 会 调用 一 次 get_ 
token () 并 返回 分 割 好 的 记号 。 由 于 词法 分 析 需 需要 记忆 set_line() 传人 的 
行 ， 以 及 该 行 已 经 解析 到 的 位 置 ， 所 以 设置 了 静态 变量 st_line 与 st_line 
pos( 第 6 一 7 行 ) *。 














按 本 书 所 采用 的 命名 规 




















范 , 文件 内 的 static 变 set_ 1ine () 图 数 ， 只 是 单纯 设置 了 st _ line 与 st_ line pos 的 值 。 
量 需 要 夫 芝 前 仿 se-。 ot_token () 则 负责 将 记号 实际 分 割 出 来 ， 即 词法 分 析 器 的 核心 部 分 。 
第 24 行 开始 的 while 语句 ， 会 逐一 按照 字符 扫描 st_1ine。 
记号 中 的 +、-、*、/ 四 则 运算 符 只 占 一 个 字符 长 度 , 因此 一 旦 扫描 到 了 , 立即 
返回 就 可 以 了 。 


数值 部 分 要 稍微 复杂 一 些 ， 因 为 数值 由 多 个 字符 构成 。 鉴 于 我 们 采用 的 
是 while 语句 逐 字 符 扫描 这 六 种 方法 ， 当前 扫描 到 的 字符 很 有 可 能 只 是 一 个 数值 
的 一 部 分 ， 所 以 必须 想 个 办 法 将 符合 数值 特征 的 值 暂 存 起 来 。 为 了 暂 存 数值 ， 我 
* 们 采用 一 个 枚 举 类 型 Lexerstatus* 的 全 局 变量 status (第 20 行 ) 
数值 可 以 分 为 整数 部 分 、 
小 数 点 和 小 数 部 分 。 使 首先 ，status 的 初始 状态 是 INITIAL STATUS。 当 遇 到 0 ~ 9 的 数字 时 ， 
家 六 迷 站 特征 之。 这 些 数字 会 被 放 人 整数 部 分 (此 时 状态 为 IN_INT_PART_sTATUS ) 中 (第 64 
是 行 )。 一 旦 遇 到 小 数 点 .， a IN INT PART STATUS 切换 为 DOT_ 
生 了 。 STATUS (第 70 行 ), DoOT_STATUS 再 遇 到 数字 会 切换 到 小 数 状态 (IN_ 
FRAC PART STATUS， 第 66 行 )。 在 IN INT PART STATUS 或 IN_FRRAC 
PART_STATUS 的 状态 下 ， 如 果 再 无 数字 或 小 数 点 出 现 ， 则 结束 ， 接 受 数值 
并 return。 
按 上 面 的 处 理 ， 词 法 分 析 器 会 完全 排除 .5 或 2..3 这样 的 输入 。 而 从 第 32 
行 开 始 的 处 理 ， 除 换行 以 外 的 空白 符号 全 部 会 被 跳 过 。 
由 于 是 用 于 计算 器 的 词法 分 析 器 ， 因 此 除 四 则 运算 符 与 数值 外 ， 没 有 其 他 要 
处 理 的 对 象 了 ， 但 如 果 考 虑 到 将 其 扩展 并 可 以 支持 编程 语言 的 话 ， 最 好 提前 想到 
以 下 几 个 要 点 。 
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1. 数值 与 标识 符 ( 如 变量 名 等 ) 可 以 按照 上 例 的 方法 通过 管理 一 个 当前 状态 将 其 解 
析出 来 ， 比 如 自 增 运算 符 就 可 以 设置 一 个 类 似 IN_INCREMENT_OPERATOR 的 状 
态 ， 但 这 样 一 来 程序 会 变 得 兄长 。 因 此 对 于 运算 符 来 说 ， 可 能 为 其 准备 一 个 字符 
串 数 组 会 更 好 。 比 如 做 一 个 下 面 这 样 的 数组 : 






















































































static char *st operator str[] = { 
r+" 
me" 
(以 下 省 略 ) 

bg 














当前 读 入 的 记号 可 以 与 这 个 数组 中 的 元 素 做 前 向 匹配 ， 从 而 判别 记号 的 种 类 。 指 
针 部 分 同样 需要 比特 征 对 象 再 多 读 入 一 个 字符 用 以 判别 ( 比如 输入 i+2， 就 需要 
将 2 也 读 入 看 看 有 没有 是 i++ 的 可 能 性 ) 。 做 判别 时 ， 像 上 例 这 样 将 长 的 运算 符 放 
置 在 数组 前 面 会 比较 省 事 。 关 于 额外 读 入 的 一 个 字符 具体 应 该 如 何 处 理 ， 稍 后 会 
介绍 。 
另外 ， 像 IE、while 这 些 保留 字 ， 比 较 简单 的 做 法 是 先 将 其 判别 为 标识 符 ， 之 后 
再 去 对 照 表 中 查找 有 没有 相应 的 保留 字 。 
2. 本 次 的 计算 器 是 以 行为 单位 的 ，st_1ine 会 保存 一 行 中 的 所 有 信息 ， 但 在 当下 的 
编程 语言 中 ， 换 行 一 般 和 空白 字符 是 等 效 的 ， 因 此 不 应 该 以 行为 单位 处 理 ， 而 是 
从 文件 中 逐 字符 ( 使 用 getc () 等 函数 ) 读 入 解析 会 更 好 。 
那么 ， 上 例 中 用 while 语 句 逐 字符 读 取 的 地 方 就 需要 替换 为 用 getc () 等 函数 来 读 
取 ， 比 如 输入 123 .4+2 时 ， 判 别 数值 是 否 结束 的 时 机 是 读 入 + 时 。 

上 例 的 词法 分 析 器 是 通过 st line _ pos 的 自 增 (第 46 行 st _ line pos++ ) 来 实 
现 的 。 如 果 直 接 从 文件 逐 字符 读 入 ，C 语 言 中 就 需要 使 用 ungetc () 等 从 读 入 的 字 
符 回 退 ， 从 而 产生 1 个 字符 的 备份 ， 达 到 预先 读 入 下 一 字符 的 效果 。 












































































































































































































































































































































































































































补充 知识 ”保留 字 ( 关键 字 ) 
在 C 语言 中 ，if 与 while 都 是 保留 字 ， 保 留 字 无 法 再 作为 变量 名 使 用 【 C 规范 中 
一 般 不 称 “ 保 留 字 ”( reserved word )， 而 称 为 “关键 字 ”( keyword )， 但 是 关键 字 的 
指 代 范围 太 广 ， 所 以 还 是 称 保留 字 更 加 准确 ]。 

C 语言 中 的 保留 字 是 由 词法 分 析 器 以 特殊 的 标识 符 方式 处 理 的 。 保 留 字 的 区 分 以 标 

识 符 为 单位 ， 比 如 if 不 能 作为 变量 名 但 ifa 就 可 以 。 
对 于 习惯 了 C 语言 的 人 来 说 ， 这 都 是 理所当然 的 事情 ， 但 站 在 
的 例子 仅 限 于 “| 却 未 必 如 此 。 






















































































































































































他 语言 的 角度 看 























x 























这 晤 | 

BASIC 的 旧版 本 ， 在 比如 在 我 小 时 候 折腾 过 一 门 叫 BASIC 的 编程 语言 *， 可 以 这 样 写 : 
N88-BASIC 中 IFA 的 | 

写法 也 是 不 允许 的 。 | IFA=10THEN... 
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文章 的 标题 是 “For- 
tran story - the real 
scoop”， 是 当时 在 
NASA 的 Fred Webb 
向 新 闻 组 alt.folklore. 
computers 的 一 篇 投 
稿 ， 有 兴趣 的 朋友 可 以 
去 搜索 一 下 。 























2.3 不 借助 工具 编写 计算 器 | 047 














会 解析 为 : 
IFA = 10 THEN ... 


向 杂志 投稿 的 程序 中 ， 注 释 ( 英语 为 remark ) 都 写成 了 下 面 这 样 : 














REMARK 这 里 是 注释 


BASIC 中 的 注释 只 需要 写 REM 语句 ，REM 之 后 都 会 被 作为 注释 处 理 ， 
成 REMARK 也 是 可 以 的 。 

BASIC 是 从 FORTRAN 的 基础 上 发 展 起 来 的 ， 以 前 FORTRAN 中 空白 字符 没有 任 
何 意义 。GOTO 可 以 写成 GO TO， 也 可 以 写成 G 0TO， 而 在 写 循环 的 时 候 ， 下 例 等 于 写 
了 一 个 1 到 5 的 循环 。 




















省 








此 即便 写 




































































DO 0 = 
处 理 
0 CONTINUE 
如 果 一 不 小 心 将 喜 号 输入 成 句号 ， 写 成 下 面 这 样 : 
DO 0 T= 
由 于 FORTRAN 中 空白 没有 意义 ,Tf 上 例 中 也 无 需 声 明 变量 ( D 开始 的 变量 默认 
解析 成 实数 型 变量 )， 所 以 最 后 会 变 成 Do10T=1.5 这 样 的 赋值 语句 。 有 传闻 * 说 就 是 
这 样 一 个 BUG 最 终 导 致 NASA 的 火箭 失控 爆炸 ， 当 然 这 多 半 是 谣传 了 。 
另外 在 C# 中 还 有 上 下 文 关键 字 ( context keyword )， 是 指 一 些 在 特殊 的 区 域内 才 
对 编译 器 有 特殊 意义 的 关键 字 ( 比如 定义 属性 时 使 用 get 等 )。 内 容 关 键 字 并 不 等 同 于 
保留 字 ， 在 普通 的 变量 名 中 可 以 使 用 。 保 留 字 与 关键 字 严格 讲 有 不 同 的 意义 ， 但 本 书 中 
































































































































































































































































































































补充 知识 ”避免 重复 包含 
在 代码 清单 2-6 中 ， 开 头 和 结尾 处 有 这 样 的 语句 























#ifndef TOKEN H INCLUDED 
#define TOKEN H INCLUDED 

( 中 间 省 略 ) 

#endif /* TOKEN H _ INCLUDED */ 


















































这 是 为 了 防止 token.h 多 次 用 #include 包含 引起 多 重 定 义 错误 而 采用 的 技巧 。 

头 文件 经 常会 用 到 其 他 头 文件 中 定义 的 类 型 或 安 。 比 如 在 a.h 中 定义 的 类 型 在 b.h 
中 使 用 的 话 ， 在 b.h 的 开头 处 书写 #include "a.h" 就 可 以 了 。 如 果 不 这 样 做 ， 程 
序 用 #include 包含 b.h 时 ， 必 须 同 时 书写 #include a.h 与 #include b.h， 还 
会 弄 得 代码 到 处 都 是 长 串 #include， 之 后 如 果 依 赖 关 系 发 生 改变 的 话 修 改 起 来 非常 
麻烦 。 
但 仅仅 在 头 文件 的 起 始 处 用 #include 包含 ah， 如 果 多 个 头 文件 都 这 样 书写 ， 会 
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民 出 类 型 或 宏 的 重复 定义 错误 。 因 此 采用 上 面 的 小 技巧 ， 一 旦 token.h 用 #include 包 
含 后 会 定义 TOKEN_H_INCLUDED， 根 据 开 头 的 #ifndef 语句 ， 该 头 文件 将 被 忽略 ， 
也 就 避免 了 产生 多 重 定义 的 错误 。 
下 面 的 两 点 是 编写 C 头 文件 的 经 验 之 谈 ， 本 书 中 涉及 的 代码 都 默认 遵循 这 两 点 : 
1. 所 有 的 头 文件 都 必须 用 #include 包含 自己 所 依赖 的 其 他 所 有 头 文件 ， 最 
终 让 代码 中 只 需 一 次 #include ; 
2. 所 有 的 头 文件 都 必须 加 入 上 文 的 技巧 ， 防 止 出 现 多 重 定义 错误 。 


2.3.2 | 自制 语法 分 析 器 


接 下 来 终于 要 开始 做 语法 分 析 絮 了 。 

在 我 看 来 ， 只 要 是 有 一 定编 程 经 验 的 程序 员 ， 即 使 没有 自制 编程 语言 的 背 
景 ， 都 可 以 大 致 想 明 白 词 法 分 析 需 的 运行 机 制 。 但 换 成 语法 分 析 露 ， 可 能 很 多 人 
就 有 点 摸 不 着 头脑 了 。 有 些 人 可 能 会 想 ， 总 之 先 只 考虑 计算 顺 程序， 将 运算 符 优 
先 级 最 低 的 + 与 - 分 割 出 来 ， 然 后 再 处 理 * 和 /…… 这 样 的 思路 基本 是 正确 的 。 
但 是 按 这 样 的 思路 实际 操作 时 会 发 现 ， 用 来 保存 分 割 字符 串 的 空间 可 能 还 有 其 他 
用 途 ， 而 加 入 括号 的 处 理 也 很 难 。 

对 于 上 面 的 问题 ， 与 其 自己 想 破 脑袋 ， 不 如 借鉴 一 下 前 人 的 智慧 。 因 此 我 们 
将 使 用 一 种 叫 递 归 下 降 分 析 的 方法 来 编写 语法 分 析 需 。 

yacc 版 的 计算 需 曾 使 用 下 面 的 语法 规则 : 


expression /* 表达 式 的 规则 */ 
: term /* 表达 式 */ 
| expression ADD term /* 或 表达 式 + 表达 式 */ 
| expression SUB term /* 或 表达 式 - 表达 式 */ 


























































































































































































































term /* 表达 式 的 规则 */ 
: primary expression /* 一 元 表达 式 */ 
| term MUL primary expression /* 或 表达 式 * 表达 式 */ 




















| term DIV primary expression /* 或 表达 式 / 表达 式 */ 


primary_expression /* 一 元 表达 式 的 规则 */ 
: DOUBLE LITERAL  /x* 实数 的 字面 常量 */ 





























这 些 语法 规则 可 以 用 图 2-5 这 样 的 语法 图 ( syntax graph 或 syntax diagram ) 
来 表示 。 
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图 2-5 
计算 器 的 语法 区 
term 
primary expression 
> 
语法 图 的 表示 方法 应 该 一 看 就 能 明白 ， 比 如 项 目 ( term ) 的 语法 图 代表 最 初 
进入 一 元 表达 式 ( primary expression ), 一 元 表达 式 可 以 直接 结束 ， 也 可 以 
继续 进行 * 或 / 和 运算， 然后 又 有 一 个 一 元 表达 式 进 入 ， 重 复 这 一 流程 。 作 为 语法 
构成 规则 的 说 明 ， 语 法 图 要 比 BNF 更 容易 理解 吧 。 
本 书 的 语法 图 例 中 ， 非 终结 符 用 长 方形 表示 ,终结 符 ( 记号 ) 用 椭圆 形 表示 。 
正如 语法 图 所 示 ， 递 归 下 降 分 析 法 读 入 记号 ， 然 后 执行 语法 分 析 。 
比如 解析 一 个 项 目 (term ) 的 函数 parse_term() ， 如 代码 清单 2-8 所 示 ， 
按照 语法 图 所 示 流 程 工作 。 
代码 清单 2.8 /* primary expression 的 解析 函数 */ 
parser.c( 节选 ) 51: V1 = parse primary expression(); 
52 : feor. (28) -{ 
3 my_get token(&token); 
/* 循环 扫描 “*"、“/” 以 外 的 字符 */ 
54: if (token.kind != MUL OPERATOR TOKEN 
55: && token.kind != DIV OPERATOR TOKEN) { 
/* 将 记号 Token 退回 */ 
56: unget token(&token); 
57: break; 
S83 } 
/* primary expression 的 解析 函数 */ 
59 : V2 = parse primary expression(); 
60: if (token.kind == MUL OPERATOR TOKEN) { 
S13: 寺 和 和 
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62: } else if (token.kind == DIV OPERATOR TOKEN) { 
53 V1 /a: Va; 

64: } 

65: } 

66: return vi; 





如 同 语法 图 中 最 开始 的 primary expression 进 入 一 样 ， 第 51 行 
的 parse_primary_expression() 会 被 调用 。 递 归 下 降 分 析 法 中 ， 一 个 非 
终结 符 总 对 应 一 个 处 理 困 数 ， 语 法 图 里 出 现 非 终结 符 就 代表 这 个 函数 被 调用 。 
此 在 第 52 行 下 面 的 for 语句 会 构成 一 个 无 限 循环 ， 如 果 * ( MUL _ OPERATOR ) 
与 / (DIV_OPERATOR ) 进入 ,循环 会 持续 进行 ( 其 他 字符 进入 则 通过 第 57 行 
的 break 跳出 )。 而 第 59 行 第 二 次 调用 parse_pPrimary expression(), 与 
语法 图 中 * 和 / 右边 的 primary expression 相对 应 。 

比如 遇 到 语句 1 * 2 + 3, 第 51 行 的 parse primary expression() 将 1 读 
入 ,第 5$3 行 my get token() 将 * 读 入 , 接 下 来 第 59 行 的 parse Primary 
expression() 将 2 读 入 。 之 后 的 运算 符 根 据 种 类 不 同 分 别 执行 乘法 (第 61 行 ) 
或 除法 〈 第 63 行 )。 

至 此 已 经 计算 完毕 1 * 2， 然 后 第 53 行 的 my_get_token() 读 入 的 记号 
是 +。+ 之 后 再 没有 term 进入 ， 用 break 从 循环 跳出 。 但 由 于 此 时 已 经 将 + 读 
进来 了 ， 因 此 还 需要 用 第 56 行 的 unget_token() 将 这 个 记号 退回 。parser. 
c 没有 直接 使 用 lexicalanalyzer.c 中 写 好 的 get_token() ， 而 使 用 了 my_get_ 
token() ，my_get_token() 会 对 1 个 记号 开辟 环形 缓冲 区 ( Ring Buffer ) ( 代 
人 码 清单 2-9 第 7 行 的 静态 变量 st_look_ahead token 是 全 部 缓冲 )， 可 以 借 
用 环形 缓冲 区 将 最 后 读 进 来 的 1 个 记号 用 unget_token() 退回 。 这 里 被 退回 
的 +， 会 重新 通过 parse_expression() 第 78 行 的 my _get_token() 再 次 
读 入 。 

完整 代码 如 代码 清单 2-9 所 示 。 

根据 语法 图 的 流程 可 以 看 到 ， 当 命中 非 终结 符 时 ， 会 通过 递归 的 方式 调用 其 
下 级 函数 ， 因 此 这 种 解析 器 称 为 递 局 下 降解 析 器 。 

这 个 程序 作为 一 个 带 有 运算 优先 级 功能 的 计算 器 来 说 ， 代 码 是 不 是 出 乎 
意料 地 简单 呢 。 那 么 请 尝试 对 各 种 不 同 的 算式 进行 真 机 模拟 ， 用 debug 追踪 或 
者 printf() 实际 调试 一 下 吧 。 
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代码 清单 2-9 
parser.c 
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#include <stdio.h> 
#include <stdlib.h> 
#include "token.h" 


#define LINE BUF SIZE (1024) 


static Token st look ahead token; 
static int st look ahead token exists; 





static void 
my_get token (Token *token) 


{ 


if (st look ahead token exists) { 





*token = st_ look ahead token; 

st look ahead token exists = 0; 
} else { 

get token (token); 





OOP OPO V0 oP A000POD Pp 





\O 
= 一 


static void 

unget token (Token *token) 
st_look ahead token = *token; 
st look ahead token exists = 1; 





double parse expression(void); 


static double 


mW wmNDNDNDDNDNNN N N N 
PO Worm NULWN PDO 


parse primary expression () 


人 入 | { 

33: Token token; 

34: 

353 my_get token(&token); 

36: if (token.kind == NUMBER TOKEN) { 
37: return token.value; 

六 区 入 } 

39: fprintf (stderr, "syntax error.\n"); 
40 exit (1) ; 

41 return 0.0; /* make compiler happy */ 
42: } 

43 

44: static double 

45: parse_ term() 

46: { 

47 double vi1; 
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48 : double v2; 

49: Token token; 

S50O: 

与 二 V1 = parse primary expression(); 

52: for (;;) { 

B53 my_get token(&token); 

54: if (token.kind != MUL OPERATOR TOKEN 
55: && token.kind != DIV OPERATOR TOKEN) { 
56: unget token(&token); 

57: break; 

S58 } 

59: V2 = parse primary expression(); 

60: if (token.kind == MUL OPERATOR TOKEN) { 
61: 和 本 二 人 

62 : } else if (token.kind == DIV OPERATOR TOKEN) 
Ss 1 a 

64: } 

553 } 

66: return vi; 

SY } 

68: 

69: double 

70: parse expression() 

了 

2 double vi; 

73: double v2; 

74: Token token; 

75 

76: V1 = parse term(); 

77: for (;;) { 

T7834 my_get token(&token); 

3 if (token.kind != ADD OPERATOR TOKEN 
80: && token.kind != SUB OPERATOR TOKEN) { 
81: unget token(&token); 

82: break; 

83: } 

84: V2 = parse term(); 

85: if (token.kind == ADD OPERATOR TOKEN) { 
86: 和 二 TY 

873 } else :if (token.kind == SUB OPERATOR TOKEN) 
88: V1 = V2; 

89: } else { 

S03 unget token(&token); 

全 下 } 

92: } 

93; return vil; 

94: } 
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51 
96: double 
97: parse line (void) 
98: { 
99: double value; 
100. 
Ls st look ahead token exists = 0; 
102: Value = parse expression(); 
和 
104: return value; 
105: } 
L108: 
二 07 3 开交 起 
108: main(int argc, char **argv) 
109: { 
lO char line[LINE BUF SIZE]; 
二 二 3 double value; 
站 
LL: while (fgets(line, LINE BUF SIZE, stdin) != NULL) { 
114: set line(line); 
开工 5 value = parse line(); 
了 区 < printf (">>%f\n", value); 
TT } 
11 
L119: return 0; 
L203: 
补充 知识 。 预 读 记号 的 处 理 
本 书 中 采用 的 递归 下 降解 析 法 ， 会 预先 读 入 一 个 记号 ， 一 旦 发 现 预 读 的 记号 是 不 需 





























要 的 ， 则 通过 unget_token () 将 记号 “退回 。 












































换 一 种 思路 ， 其 实 也 可 以 考虑 “始终 保持 预 读 一 个 记号 ” 
了 单 2-9 可 以 改写 成 代码 清单 2-10 这 样 : 


代码 清单 210 
parser.c ( 始终 保持 预 读 版 ) 


























的 方法 。 按 照 这 种 思路 ， 











/* token 变量 已 经 放 入 了 下 一 个 记号 */ 

parse primary expression(); 

| 

/* 这 里 无 需 再 读 入 记号 */ 

if (token.kind != MUL OPERATOR TOKEN 
&& token.kind != DIV OPERATOR TOKEN) { 
/* 不 需要 退回 处 理 */ 
break; 





全 让 
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} 


























/* token.kinqd 之 后 还 会 使 用 ， 所 以 将 其 备份 
* 而 parse primary expression() 也 就 可 以 读 入 新 的 记号 
*/ 

kind = token.kind; 

my_get token(&token); 














V2 = parse primary expression(); 


if (kind == MUL OPERATOR TOKEN) { 
村 

} else if (kind == DIV OPERATOR TOKEN) { 
V1 /= v2; 


} 








比较 这 两 种 实现 方式 ， 会 发 现 两 者 的 实质 基本 上 是 一 样 的 。 很 多 编译 器 入 门 书籍 中 
举 的 实例 代码 ， 和 本 书 中 的 例子 相差 无 几 。 
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二 





































































































不 过 这 里 还 是 会 有 个 人 偏好 ， 就 我 而 言 ， 更 喜欢 “ 边 读 入 边 退 回 ” 的 方法 。 在 “ 始 








终 保持 预 读 ” 的 方法 中 ， 变 量 token 是 一 个 全 局 变量 ， 代 码 中 相隔 很 远 的 地 方 也 会 操作 












































了 少许 理论 知识 


2.3.2 节 中 手写 的 解析 需 会 对 记号 进行 预 读 ， 并 按照 语法 几 
号 。 这 种 类 型 的 解析 器 叫 作 LL(1) 解析 器 。LL(1) 解析 融 所 能 





其 变量 值 ， 追 踪 数 据 变化 会 比较 麻烦 。 





LL(1) 与 LALR(1) 





LL(1) 语法 。 


采用 LL(1) 语法 ， 当 然 能 制作 出 对 应 的 编程 语言 来 。 比 如 Pascal 的 语法 就 是 


LL(1), 



































但 是 看 了 代码 清单 2-9 就 能 明白 ，LL(1) 解析 器 在 语法 上 需要 非 终结 符 与 解 


的 流程 读 入 所 有 记 
解析 的 语法 ， 叫 作 





析 融 内 部 的 函数 一 一 对 应 。 也 就 是 说 ， 只 看 第 一 个 进入 的 记号 ， 还 无 法 判断 需 不 








需要 继续 往 下 读 取 ， 也 不 能 知道 当前 非 终结 符 究竟 是 什么 。 


比如 在 Pascal 中 ，goto 语句 使 用 的 标签 只 能 是 数字 ， 这 样 限制 的 原因 是 
语言 一 样 允 许 英 文字 母 作 为 标识 符 的 话 ， 读 和 第 一 个 记号 时 ， 
法 区 分 这 个 记号 究竟 是 赋值 语句 的 一 部 分 ， 还 是 标签 语句 的 一 部 分 。 因 为 无 论 赋 


如 果 像 C 
























































就 没有 办 





值 语 句 还 是 标签 语句 ， 开 始 的 标识 符 是 一 样 的 。 由 此 可 知 ，LL(1) 语法 所 做 出 的 
解析 咒 都 比较 简单 ， 语 法 能 表达 的 范围 比较 狭 罕 。 
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那么 ,在 把 计算 器 的 BNF 改写 为 语法 图 的 过 程 中 ， 一些 敏锐 的 读者 可 能 已 经 
有 了 这 样 的 疑问 : 

不 管 是 用 BNF 还 是 语法 图 ， 都 应 该 只 是 表面 上 有 区 别 ， 语 法 实现 部 分 应 该 是 
一 样 的 啊 。 但 你 写 的 代码 怎么 连 算法 都 不 一 样 ? 我 有 种 上 当 了 的 感觉 。 

实际 上 确 有 此 事 ， 在 把 BNF 置换 为 图 2-5 所 示 的 语法 图 时 ， 我 运用 了 一 个 小 
手法 。 在 BNF 中 语法 规则 是 这 样 的 : 


expression /* 表达 式 的 规则 */ 
| expression ADD term /* 或 表达 式 + 项 目 */ 


而 在 实现 递归 下 降 分 析 时 ， 如 果 仍 然 按 这 个 规则 在 parse_expression() 刚 
开始 就 调用 parse_expression()，, 会 造成 死 循环 ， 一 个 记号 也 读 不 了 。 

BNF 这 样 的 语法 称 为 左 递 归 ， 原 封 照搬 左 递归 的 语法 规则 ， 是 无 法 实现 递归 
下 降 分 析 的 。 

所 以 yacc 生成 的 解析 需 称 为 LALR(1) 解析 器 ， 这 种 解析 器 能 解析 的 语法 称 
为 LALR(1) 语法 。LALR(1) 解析 器 是 LR 解析 器 的 一 种 。 

LL(1) 的 第 一 个 直 ， 代 表 记 号 从 程序 源 代 码 的 最 左边 开始 读 入 。 第 二 个 工 则 
代表 最 左 推导 ( Leftmost derivation )， 即 读 和 人 的 记号 从 左 端 开始 置换 为 分 析 树 。 而 
与 此 相对 的 LR 解析 器 ， 从 左 端 开始 读 和 人 记号 与 LL(1) 解析 器 一 致 ， 但 是 发 生 归 
约 时 (参看 2.2.3 节 图 2-3 )， 记 号 从 右边 开始 归 约 ， 这 称 为 最 右 推 导 ( Rightmost 
derivation )， 即 LR 解析 器 中 R 字母 的 意思 。 

递归 下 降 分 析 会 按 自 上 而 下 的 顺序 生成 分 析 树 ， 所 以 称 作 递归 “下 降 ” 解 析 
器 或 递归 “向 下 ”解析 器 。 而 LR 解析 器 则 是 按照 自 下 而 上 的 顺序 ， 所 以 也 称 为 
“ 自 底 向 上 ”解析 髓 。 

此 外 ,LL(1)、LALR(1) 等 词汇 中 的 (1)， 代 表 的 是 解析 时 所 需 前 有 瞻 符号 
( lookahead symbol )， 即 记号 的 数量 。 

LALR(1) 开头 的 LA 两 个 字母 ， 是 Look Ahead 的 缩写 ， 可 以 通过 预 读 一 个 记 
号 判明 语法 规则 中 所 包含 的 状态 并 生成 语法 分 析 表 。LALR 也 是 由 此 得 名 的 。 

本 章 中 实际 制作 的 计算 器 是 采用 LL(1) 语法 作为 解析 器 的 ， 因 为 比较 简单 ， 
所 以 适合 手写 。 如 果 是 LALR(1) 等 LR 语法 的 话 ， 则 更 适合 用 yacc 等 工具 自动 生 
成 (这 话 可 能 已 经 说 了 太 多 遍 了 )。 不过， 最 近 像 ANTLR 、JavaCC 等 一 些 采 用 
LL(k)， 即 预 读 任意 个 记号 的 LL 解析 器 也 开始 普及 起 来 。 
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补充 知识 。 Pascal/C 中 的 语法 处 理 诀 穿 












































前 面 提 到 Pascal 采用 的 是 LL(1) 语法 ， 但 是 在 Pascal 中 ， 同 时 存在 赋值 语句 和 过 
程 调用 ( C 语言 中 是 函数 调用 )。 按 照 之 前 的 介绍 ， 这 两 者 都 由 同一 类 标识 符 开 始 的 ， 
LL(1) 解析 器 似乎 无 法 区 分 。 
在 这 个 问题 上 ，Pascal 并 没有 从 一 开始 就 强行 将 其 区 分 ， 而 是 逆转 思路 ， 引 入 了 
一 个 同时 代表 “赋值 语句 或 过 程 调用 ”的 非 终 结 符 ， 然 后 在 下 一 个 记号 读 入 
。 这 样 不 用 更 改 Pascal 语法 设计 ， 仅 仅 变 化 一 下 语法 规则 就 解决 了 问题 。 
在 C 语言 中 ， 如 果 是 通过 typedef 命名 的 一 些 类 型 ， 其 标识 符 yacc ( LALR(1) 解 
析 器 ) 是 无 法 解析 的 。 比 如 C 语言 中 可 以 简单 地 声明 为 : 

































































































































































口 将 其 































































































| Hegel*hnoge = Ns 
即 被 称 为 “C 语言 圣经 ” 9eP 
的 The CProgramming | 






































其 中 的 星 号 究竟 是 乘法 运算 符 还 是 指针 符号 ， 单 看 Oge 这 个 标识 符 很 难 直 观 得 出 结 i 


















































































































































VCS 
和 900496 各 作 训 ”对 此 ，C 语言 用 了 一 个 小 诀 穿 ， 即 在 标识 符 作为 类 型 名 被 声明 的 时 候 ， 会 由 语法 分 析 
版 为 《C 程序 设计 语言 “| ”器 通知 词法 分 析 器 ; 此 后 凡 遇 到 这 个 标识 符 ， 不 要 将 其 作为 标识 符 ， 而 作为 类 型 名 返回 。 
术 工 4 版 入 2004 通过 很 多 类 似 的 决 窍 ， 终 于 可 以 让 LL(I1)LALR(1) 解析 器 解析 Pascal/C 语言 了 。C 
年 出 版 。 | 语言 图 书 K&R* 的 附录 中 ， 就 记录 了 BNF 要 经 过 一 些 修正 才 可 以 输入 yacc 的 内 容 。 

















图 习题 : 扩展 计算 器 
区 ii 计 算 器 支持 括号 


如 果 要 说 普通 计算 器 有 什么 不 方便 的 地 方 ， 不 能 直接 输入 括号 进行 计算 就 是 
二 中 之 一 。 因 此 为 了 让 mycalec 支持 括号 ， 我 做 了 一 些 修改 。 
因为 使 用 的 是 yacc/lex， 所 以 首先 在 lex 中 增加 ( 和 ) 两 个 记号 。 








站 本 








( 前 略 ) 

yt: return ADD: 

ee return SUB; 

es reCUEn MU 

Wy return DIV; 

"(nn ET 新 增 
ye return RP; 
IN return CR; 
( 后 略 ) 
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在 语法 














Ph 引 入 括号 
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LP、RP 分 别 是 left paren 、right paren 的 缩写 
然后 将 primary_expression 的 语法 规则 替换 为 下 面 这 样 : 


primary expression 
: DOUBLE LITERAL 
| LP expression RP 








一 看 就 能 明白 ， 意 思 是 被 ( ) 包 玩 的 expression 还 是 一 个 primary_ 
eXptessiono。 

不 过 仅 这 两 处 修改 还 不 能 让 mycalc 文 持 插 号 。 

使 用 递归 下 降 分 析 法 制作 语法 分 析 器 的 话 ，primary_expression 的 语法 
图 需 更 改 为 图 2-6 那样 。 


primary expression 









DOUBLE LITERAL 


(() expression 


这 表示 用 括号 将 expression 包 右 的 部 分 ， 整 体 将 会 作为 Primary 
et 来 处 理 。 


























那么 按 这 个 思路 重新 编写 parserc 如 下 所 示 。 

Stet lie doe 

区 oe Yolen ‘Spohres) uel() 

3: { 

4 Token token; 

S's douole vealue, 

3 

这 my_get token(&token); 

8 if (token.kind == NUMBER TOKEN) { 

Se Eelt vneeoren le 
10a } else if (token.kind == LEFT PAREN TOKEN) { 
le vealuee ORDER 
2 my_get token(&token); 
Le if (token.kind != RIGHT PAREN TOKEN) { 
14: EOL (Se sor 
了 LE exael(a 
a } 
是 Eeturne vealue, 
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ya: 











18: } else { 

9 unget token(&token); 

DE return 0.0; /* make compiler happy */ 
2 } 

2 

















将 语法 图 直接 转换 为 代码 应 该 不 是 很 难 ， 只 要 按 图 中 的 思路 去 做 即 
可 。 如 果 进 入 的 不 是 DOUBLE_LITERAL 而 是 (， 则 把 括号 中 的 部 分 作为 一 
个 expression 去 解析 就 可 以 了 。 此 外 ， 如 果 expression 解析 完毕 后 没有 找 
到 标记 结束 的 右 括号 ) ， 则 需要 报错 。 


区 到 让 计算 器 支持 负数 


其 实 目前 做 出 来 的 计算 需 ， 还 无 法 支持 负数 。 因 为 在 定义 数值 时 用 的 正则 表达 
式 是 [1-9] [0-9]* 或 [0-9] x\. [0-9]*， 根 本 没有 把 负数 作为 一 种 数值 考虑 进来 。 

那么 ， 如 果 我 们 想 修改 计算 器 让 其 支持 负数 ， 要 怎么 办 呢 ? 

可 能 有 人 会 想 ， 只 要 在 词法 分 析 器 中 将 -5 这 样 的 输入 也 作为 DOUBLE_ 
LITERAL 来 处 理 不 就 行 了 吗 ? 按 这 种 思路 ，3-5 这 样 的 输入 会 被 解析 成 3 和 - 
5 两 个 记号 (请 参考 2.1 节 中 的 补充 知识 )。 

因此 ， 如 果 不 想 将 负数 作为 记号 人 处理， 就 应 该 在 语法 分 析 器 中 想 办 法 。 

如 果 用 yacec 的 话 ， 我 们 可 能 首先 会 想到 这 样 做 : 


primary expression 
: DOUBLE LITERAL 












































| SUB DOUBLE LITERAL «el 
{ 
$$ = -$2 
} 
下 面 省 略 ) 

















确实 ， 用 这 种 方法 可 以 给 定 值 的 实数 加 上 人 负 号 -。 

但 是 ， 用 这 种 方法 给 - (3 * 2) 这 样 带 括 号 的 算式 再 加 上 负 号 是 办 不 到 的 
(有 人 可 能 觉得 办 不 到 也 无 所 谓 ， 请 允许 我 吹 毛 求 疯 一 下 )。 为 了 再 支持 这 种 括号 
的 处 理 ， 还 需要 这 样 修改 : 


primary expression 
: DOUBLE LITERAL 
| SUB primary expression 


{ 
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包含 负 号 的 语法 图 
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( 下 面 省 略 ) 
那么 在 递归 下 降 分 析 法 中 ， 可 以 允许 负 号 的 语法 图 如 图 2-7 所 示 ( 这 个 语法 
图 还 包含 了 对 括号 的 支持 )。 


primary expression 






















DOUBLE LITERAL 


(() expression 


将 其 转换 为 代码 ， 如 下 所 示 。 
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a 
汤 
3 
4: 
5 
6 
到 
8 


static double 


Barse primary expressdom( 


{ 


Token token; 
double value = 0. 
Int minuseflag = 


my_get token(&token); 


ENEoren nd UPIODERATORNTOKEN Ol 
mmmue selec a 

} else { 
unget token(&token); 

} 

mgeteneeken( Eo 

if (token.kind == NUMBER TOKEN) { 
Value = token.value; 

} else if (token.kind == LEFT PAREN TOKEN) { 


vealuee ar Scar 
my_get token(&token); 


if (token.kind != RIGHT PAREN TOKEN) { 
EpraneelsEaer mdse ror 
exit (1); 
b 
} else { 


unget tokenl(stoken) 


if (minus flag) { 
value = -value; 


} 


return value; 
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制作 crowbar ver0.1 语言 的 基础 部 分 


本 书 首先 制作 一 门 无 变量 类 型 的 语言 。 像 Perl、Ruby、Python、PHP 这 些 近 
些 年 火 起 来 的 脚本 语言 ， 基 本 都 没有 变量 类 型 。 我 们 把 将 要 制作 的 语言 命名 为 
CrOwWbar。 


本 昔 首 先 对 crowbar 的 初始 版 本 ( ver.0.1 ) 进行 简要 说 明 。 


3.1.1 | crowbar 是 什么 


crowbar 不 是 那 种 如 果 找 到 有 四 片 叶 子 就 会 有 好 运 降临 的 植物 ( 那 叫 三 叶 
草 )， 而 是 如 图 3-1 这 样 形状 的 工具 。 


图 31 
名 为 crowbar 的 工 





















































之 所 以 起 名 叫 crowbar， 主 要 是 因为 这 次 要 做 的 语言 会 生成 分 析 树 并 执行 。 
单 就 这 点 来 说 是 与 Perl 比较 接近 的 。 有 和 句 话 是 怎么 说 来 着 ， 对 了 ， 就 是 那 句 经 常 
能 从 新 闻 里 听 到 的 : 
援 棍 状 的 物体 
于 是 我 就 以 crowbar 命名 了 。 喂 ， 别 向 我 扔 石头 啊 。 
如 前 文 所 述 ，crowbar 的 语法 应 当 照 顾 本 书 读者 的 习惯 ， 所 以 沿袭 了 C 语言 























的 语法 。 
首先 将 初版 的 crowbar 命名 为 crowbar book ver.0.1， 示 例 代 码 如 代码 清单 3-1 
所 示 。 





















































中 ， 当 刑事 案件 发 生 时 ， 如 果 物 证 尚 不 充分 ， 警 方 在 新 闻 发 表 会 上 描述 犯罪 所 使 用 的 道具 时 会 经 党 
“ 手 棍 状 的 物体 ”来 形容 ， 这 一 说 法 对 本 人 来 说 是 耳熟能详 的 。 由 于 Per| 与 手 棍 在 日 语 中 发 
音 很 接近 ， 所 以 作者 用 crowbar 命名 其 实 是 一 语 双 关 的 小 幽默 。 译 者 注 
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代码 清单 3-1 
fizzbuzz_0_1.crb 
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(00 全 ,二 于 平王 并 
2 : 了 和 (宇和 5 sa 0) 区 

3 : print ("FizzBuzz\n"),; 
4: } elsif (i % 3 == 0) { 

5: print ("Fizz\n"); 

6: } elsLf (LO 

7: print ("Buzz\n"); 

8: } else { 

9: Print("" + i + "\n"); 
10: } 

I 起 

















与 代码 清单 1-1 不 同 的 是 ， 由 于 自 增 运 算 符 ++ 尚未 实现 ， 所 以 写成 了 i = 
i + 1o 

这 个 版 本 的 crowbar 还 没有 实现 一 门 编程 语言 应 当 上 有 具备 的 所 有 基本 功能 ( 可 
能 有 读者 会 说 ， 就 这 样 也 敢 与 Perl 相提并论 呀 )， 当 前 版 本 所 实现 的 功能 ， 会 在 
以 后 的 章节 中 加 以 说 明 。 


3.1.2 | 程序 的 结构 


crowbar 与 Perl 一 样 ， 文 持 在 顶层 结构 书写 代码 。 所 谓 的 顶部 结构 ， 即 函数 
或 类 的 外 侧 。 

C 语言 中 ,在 函数 的 外 面 可 以 定义 变量 却 不 能 书写 执行 语句 ， 因 此 即便 
只 写 一 名 “hello, world”， 也 需要 main() 子 数 。Java 就 更 悲惨 了 ， 必 须 写 
长 长 的 一 串 public class HelloWorld 还 有 public static void 
main(String[] args) 这 种 外 行人 看 来 像 融 语 一 样 的 东西 。 如 果 仅 仅 想 写 几 
行 简单 的 脚本 ， 这 实在 很 麻烦 ， 而 对 于 初学 者 来 说 也 增加 了 学 习 的 难度 。 

在 crowbar 中 ， 如 果 想 写 一 个 显示 “hello, world” 的 程序 ， 只 需 简 单 地 写成 
下 面 这 样 就 可 以 了 。 

print ("hello, world\n"); 
无 需 再 包 于 水 数 或 者 类 。 
函数 的 定义 ， 需 要 使 用 保留 字 function， 按 如 下 方式 书写 : 


# 显示 将 a 与 b 相 加 的 值 ， 作为 返回 值 返回 的 函数 
function hoge(a，b) { 










































































C= 下 + 玖 D， 
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Bl a rn 


Peturn ew 


} 

函数 定义 在 程序 中 可 以 写 在 任意 位 置 。 程 序 执行 时 ， 首 先 将 顶层 结构 中 的 语 
句 从 上 往 下 顺序 执行 ， 函 数 定 义 部 分 会 被 跳 过 。 直 至 函数 被 调用 时 ， 才 执行 该 函 
数 内 的 语句 。 

函数 如 果 不 存在 return 语句 ， 将 返回 特殊 的 常量 nul1。 


3.1.3 数据 类 型 


可 以 使 用 的 数据 类 型 如 下 所 示 。 

@ 布尔 型 。 值 可 以 为 true 或 false。 

@ 整数 型 。 其 实 就 是 crowbar 底层 运行 环境 的 C 语言 的 int 型 。 

@ 实数 型 。 即 crowbar 底层 运行 环境 的 C 语言 的 double 型 。 当 整数 型 与 实数 型 混合 
运算 时 ， 整 数 型 将 被 扩充 为 实数 型 。 

@ 字符 串 型 。 可 以 通过 + 运算 符 连接 。 另 外 ， 如 果 字 符 串 在 左 侧 数值 在 右 侧 ， 用 + 连 
接 的 话 ， 右 侧 将 被 转换 为 字符 串 型 。 

例如 : 


erie (on 0 将 显示 10 + 5..15 








二 





















































































































































@ 原生 指针 型 ( Native Pointer )。 请 读者 不 要 根据 名 字 将 其 想象 成 那 种 可 以 直接 访问 
为 存 的 邪恶 指针 ，crowbar 的 原生 指针 型 类 似 于 C 语言 的 FILE* ， 是 用 于 在 crowbar 
部 移动 跳 转 的 类 型 。 详 细 请 参考 3.1.7 节 。 


在 book ver.0.1 中 ， 不 存在 数组 、 关 联 数组 ( associative array )、 类 、 对 象 等 




































































过 


















































crowbar 与 Perl 、Ruby 等 相同 ， 都 是 静态 无 类 型 ( 即 变量 无 需 声 明 类 型 ) 





crowbar 无 需 变量 声明 ， 赋 初始 值 时 就 包含 了 声明 过 程 (和 Ruby 非常 类 似 )。 
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如 果 直接 引用 一 个 还 没有 赋值 的 变量 则 会 报错 。 
变量 的 命名 规则 与 C 基本 一 样 ， 必 须 以 字母 开头 ， 第 二 个 字符 开始 可 以 使 用 
字母 数字 ， 也 支持 下 划 线 。 与 Perl 等 不 同 的 是 ， 变 量 开 头 无 需 书写 
函数 内 首次 进行 赋值 的 变量 会 作为 函数 的 局 部 变量 ， 局 部 变量 
及 作用 域 仅 限 于 当前 函数 内 部 。C 语言 等 还 可 以 在 函数 中 用 {} 再 开辟 一 个 块 
( Block )， 并 在 块 内 有 更 小 作用 域 的 局 部 变量 ，crowbar 则 不 支持 这 种 特性 。 
变量 是 在 赋值 语句 执行 时 进行 声明 的 ， 如 下 例 所 示 : 














an 


$ 和 付 马 。 
变量 的 生命 周期 























A 


之 


















































9) 
b. = 10; 
} 
ED 
a 只 有 为 10 的 时 候 b 才 被 声明 ，print 语句 可 以 正常 显示 。 如 果 a 不 为 10 


则 会 报 出 未 定义 变量 的 错误 。 

在 顶层 结构 中 赋值 的 变量 会 成 为 全 局 变量 。 
用 global 语句 进行 声明 。 

global 语句 可 以 按 以 下 的 方式 使 用 : 

global 变量 名 ， 变量 名 ，…; 

比如 函数 内 用 global a; 声明 之 后 ,在 该 函数 内 就 可 以 引用 全 局 变量 a( 如 
a 不 存在 则 会 报 运行 错误 )。 
比如 运行 代码 清单 3-2， 运 行 结果 如 下 所 示 : 


S30 
a 2 人 0 








函数 中 引用 全 局 变量 时 ， 需 要 














果 全 


己 i 二 KR 时 
局 变量 





























运行 结果 第 1 行 的 a. .30 是 代码 清单 3-2 第 10 行 的 print 输出 结果 ， 因 此 
这 里 显示 的 是 func2 () 中 被 赋值 的 局 部 变量 a 的 值 。 








第 2 行 的 a..20 则 是 第 15 行 的 print 结果 ， 显 示 的 是 全 局 变量 a 的 值 。 








代码 清单 32 
global.crb 


因为 有 了 global 语句 ， 所 





以 第 5 行 赋值 的 是 全 局 变量 a 的 引用 ， 而 第 9 行 





只 引用 了 局 部 变量 ， 








因此 即使 对 其 赋值 也 不 会 对 全 局 变量 产生 影响 。 





1: a = 10; 
2 

3: function func() { 

4: global a; 

5: a = 20; 这 里 的 a 是 全 局 变量 
6 } 
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上 面 的 语句 在 Perl 中 如 
果 加 上 -w 参数 并 运行 


的 话 会 出 现 警告 。 



































8: function func2() { 


这 里 的 a 是 局 部 变量 


3 -0 

10: print ("a.." + a + "\n"); 
11: } 

12: 


13: func() ; 
14: func2(); 


15: print ("a.." + a + "\n"),; 

















那么 ,为 什么 一 定 要 使 用 global 语句 声明 后 才 可 以 引用 全 局 变量 呢 ? 这 样 


的 设计 有 以 下 两 个 原因 。 





























@ 如 果 没 有 任何 约束 就 可 





























以 直接 引用 全 





局 变量 ， 那 么 编写 函数 时 就 必须 随时 掌握 所 有 


















































e@ 全 局 变量 的 使 用 频率 并 不 高 , 因 














全 局 变量 的 情况 ， 而 对 于 强调 高 内 聚 性 的 函数 来 说 ， 这 种 设计 会 产生 致命 的 错误 。 









































点 障碍 对 编写 程序 不 会 产生 太 大 影响 。 














此 设 


这 样 




















话 虽 如 此 ， 在 使 用 STDIN ( 标准 输入 的 文件 指针 ) 这 样 的 全 局 变量 时 也 必须 


声明 ， 还 是 多 少 有 些 不 方便 的 。 


初次 赋值 兼 做 变量 声明 的 理由 


补充 知识 























初次 赋值 时 兼 做 变量 声明 ， 即 如 果 














如 上 文 所 述 ，crowbar 会 在 变量 
值 的 变量 会 报错 。 
比如 在 Perl 中 ， 默 认 情 况 下 ， 

















即使 没 








会 根据 上 下 文 自动 转换 。 像 下 面 这 样 



































接 使 用 没有 赋 
























































print 123 * $a; # 对 未 赋值 的 变量 $a 进行 

















乘法 运算 





























运行 结果 为 0， 因 为 未 赋 




































































但 是 这 样 的 设计 容易 因为 变量 名 输入 有 误 而 引 





























中 ， 行 过 初次 赋值 的 变 





只 能 使 用 


O 














赋值 的 变量 仍然 可 以 使 用 。 此 时 该 变量 值 
书写 的话 ; 


的 变量 $a 的 值 被 自动 转换 为 0 了。 
起 BUG*。 因 此 在 crowbar 的 设计 
































还 需要 注意 的 是 ，crowbar 在 执行 





变 时 














的 赋值 语句 时 才 会 被 声明 ， 而 Ruby 只 要 书 























写 了 赋值 语句 就 完成 了 变量 声明 ， 








即 赋值 语句 的 执行 不 是 必须 的 。 因 此 ， 像 下 














print a; # 赋 值 语句 没有 执行 ， 也 可 以 使 
这 些 程序 在 Ruby 中 都 是 合法 的 。 关 于 这 样 设 计 的 理 
E 做 了 如 下 说 明 ( 请 参考 ruby-list 邮件 列表 的 No.33798 ) : 








Lir 





; # 这 个 例子 中 ， 赋 值 语句 执行 前 ，x 也 可 以 使 用 




















dao 



































面 这 样 


























，Ruby 的 作者 松本 行 弘 先 
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不 过 我 还 是 有 些 介意 ， 
Ruby 中 连 类 或 方法 的 
定义 都 是 动态 可 执行 
的 ， 为 什么 偏偏 变量 的 
定义 要 做 成 静态 的 呢 。 
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全 局 变量 的 作用 域 应 当 通 过 静态 方式 决定 ， 也 就 是 说 ， 在 赋值 语句 开始 执行 才 
检查 变量 是 否 存在 ， 这 样 的 设计 并 不 好 。 
因为 动态 的 变量 作用 域 用 户 理解 起 来 有 难度 ， 同 时 也 失去 了 一 次 编程 语言 中 为 
数 不 多 的 可 以 进行 性 能 优化 的 机 会 。 
关于 这 一 点 我 是 持 同 意 态 度 的 *， 那 为 什么 crowbar 中 没有 这 样 去 做 呢 ? 理 
很 简单 ， 只 是 想 要 偷懒 一 下 而 已 。 
补充 说 明 “各 种 语言 的 全 局 变量 处 理 
下 面 来 看 一 看 其 他 语言 中 全 局 变量 的 处 理 方 法 。 
Perl : 变量 默认 是 全 局 的 ， 只 有 加 上 local 或 my 等 定义 后 才 会 变 成 局 部 变量 。 
Ruby : 用 $ 开头 的 变量 是 全 局 变量 。 
PHP : 与 crowbar 一 样 ， 函 数 内 要 引 己 变 量 的 话 ， global 语句 定义 。 
一 般 来 说 ， 程 序 中 应 该 避免 到 处 使 局 变量 ， 而 尽 可 能 优先 保证 局 部 变量 的 内 
聚 性 。 从 这 个 角度 来 讲 ，Perl 式 的 设计 是 不 能 借鉴 的 ( 当然 如 果 是 一 次 性 的 脚本 ， 这 
样 倒是 很 方便 )。Ruby 式 的 设计 是 比较 合理 的 ， 但 按 这 个 设计 写 出 来 的 程序 可 能 到 处 
是 记号 ， 霄 失 了 程序 的 美感 ( 这 只 是 我 主观 的 感受 )。 因 此 crowbar 采用 了 PHP 风格 
的 global 语句 的 设计 。 


3.1.5 | 语句 与 结构 控制 


crowbar 与 C 语言 一 样 ， 有 if、while、for 等 结构 控制 语句 。 
与 C、C++、Java 等 语言 有 以 下 两 处 比较 大 的 区 别 : 


@ crowbar 中 不 人 允许 出 现 悬 空 else ( 花 括 号 { } 是 强制 书写 的 ) ; 
@ 因为 不 允许 悬空 else， 所 以 引入 了 elsif 语句 。 


具体 来 说 是 下 面 这 样 的 形式 : 


# if 语句 的 例子 





























将 





























































































































































































































































































































/ 

















































































































Ie Ma ss L107 
# a == 10 时 执行 
TISSUE SEE 
# a == 11 时 执行 
} else { 


# a 不 为 10 也 不 为 11 时 执行 
} 


# while 语句 的 例子 
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WE 全 本 IO) 
# i 比 10 小 时 ， 此 处 循环 执行 


} 


# for 语句 的 例子 
ES 
号 


有 循环 10 次 





此 外 ， 在 crowbar 中 也 可 使 用 下 列 语句 ， 其 意义 与 C 语 言 相 同 。 
@ break : 从 最 内 层 的 循环 中 跳出 。 


@ continue : 跳 过 最 内 层 循环 中 剩余 的 代码 。 
e@ return : 从 函数 退出 ， 并 将 后 面 的 值 作 为 返回 值 返回 。 
break 或 continue， 最 好 能 像 Java 那样 附加 一 个 标签 , 但 当前 版 本 还 没有 


这 个 功能 ( book_ver.0.3 实现 了 标签 功能 )。 


补充 知识 。 elif、elsif、elseif 的 选择 
C 等 语言 中 ，if 语句 允许 没有 花 括号 的 写法 ( 也 称 作 悬 空 语句 )， 也 可 以 像 下 例 这 
样 用 else if 排列 书写 。 




















i 
| 











































































































te (a TO) 

} 和 (20 
} 本 te (era SO 
} a { 


} 

C 或 Java 虽然 设置 了 这 种 特别 的 结构 控制 语法 ， 但 偶尔 也 有 初学 者 会 误解 其 意义 ， 
以 为 else if 不 是 一 个 专用 语句 ， 而 是 else 语句 后 省 略 花 括 号 又 写 的 一 个 if 语句 。 
说 起 来 在 工作 中 的 确 会 遇 到 很 多 项 目 ， 在 编码 规范 中 明确 规定 了 “禁止 省 略 花 括号 ”， 
这 样 就 可 以 放心 地 去 写 else if 了 。 

crowbar 中 直接 废弃 了 悬空 语句 ， 无 法 书写 上 述 形式 的 else if， 为 此 特别 引入 


了 elsif。 不 过 不 同 语言 对 于 elsif 的 设计 都 不 太一 样 ， 实 在 让 人 有 些 头 疼 。 
















































































































































































































































































B Shell、Python、C 预 处 理 器 elif 
Perl、 Rubpy、MODULA-2、Ada、Eiffel elsif 
Visual Basic、 PHP elseif 

姑 为 crowbar 的 目标 就 是 成 为 “Perl 那样 的 东西 "， 所 以 我 就 私自 决定 采用 elsif 了 。 
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3.1.6 | 语句 与 运算 符 


首先 ，crowbar 支持 以 下 形式 的 常量 作为 语句 。 


@ 整数 字面 常量 ， 如 123 等 。 
@ 实数 字面 常量 ， 如 123.456 等 。 
® 字符 串 字 H 党 3 双 引 号 包 豪 的 字符 串 ， 如 "abe" 等 。 


另外 变量 也 可 以 作为 语句 。 


进而 可 以 和 运算 符 结合 构成 更 复杂 的 语句 ， 当 然 还 支持 括号 。 
crowbar 可 使 用 的 运算 符 如 表 3-1 所 示 ( 按 运算 优先 级 排序 )。 


















































































































































表 3-1 一 ( 单 目 取 负 ) 符号 的 反 转 
crowbar 可 使 用 的 运 */% 乘法 、 除 法 、 求 余 
算 符 + 一 加 法 、 减 法 

> >= < <= 大 小 比较 

== Is 同 值 比较 

&& 逻辑 与 

| 逻辑 或 

赋值 








$ 运算 也 可 以 用 在 实数 上 ， 本质 上 是 在 内 部 调用 了 C 的 函数 fmod () 。 

无 论 C 语言 还 是 crowbar， 都 没有 用 常量 直接 表示 负数 。 想 使 用 负数 时 ， 可 
以 使 用 单 目 取 负 符 -。 

而 与 C 语言 一 样 ，&&、| | 都 是 短路 运算 符 。 也 就 是 说 ， 像 下 面 这样 的 条 件 
语句 : 


(0 0 






































当 a < 10 的 条 件 不 成 立时 , 不 再 判断 b < 20 这 一 条 件 语句 (已 经 短路 ， 
所 以 表达 式 无 论 真 伪 都 不 会 在 if£ 语句 中 执行 )。 


3.1.7 | 内 置 函 数 


内 置 函 数 是 crowbar 最 开始 就 包含 的 用 C 语言 编写 的 函数 。crowbar 当前 版 
本 的 内 署 困 数 如 表 3-2 所 示 。 
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crowbar book_ 


ver.0.1 的 内 置 函数 








函数 名 功能 
print(arg) 显示 arg。arg 的 类 型 可 以 是 整数 、 实 数 、 字 符 串 








代码 清单 3-3 
crowbar 被 C 语言 调用 





YE 




















打 个 文件 ， 返 回 文件 指针 。mode 的 可 选 参数 与 
fopen() 一 样 ( 其 实 就 是 原封 不 动 的 传 给 了 C 语言 ) 





由 


中 


言 的 





fopenlfilename, mode) 



























































fclose(fp) 传 入 fp 即 关闭 文件 
fgets(fp) 从 fp 中 读 出 一 行 字 符 串 并 返 串 
fputs(str, fp) 向 和 输出 字符 串 ， 输 出 时 不 会 自动 添加 换行 









































显而易见 ， 基 本 上 所 有 文件 操作 函数 的 设计 都 沿袭 了 C 语言 的 stdio.h。 只 是 
因为 crowbar 有 字符 串 类 型 ， 所 以 fgets () 等 的 用 法 会 稍 有 不 同 。 

此 外 ，fopen() 返回 的 类 型 是 crowbar 才 有 的 “原生 指针 型 ”。 上 例 中 只 是 
单纯 指向 C 的 FILE*， 但 是 这 个 类 型 的 特殊 之 处 远 不 止 于 此 。 比 如 用 内 置 函数 实 
现 GUI 时 , 创建 一 个 打开 新 窗口 的 函数 create_window() ， 其 返回 值 应 当 能 
示 一 个 “窗口 ”>， 此 时 就 可 以 考虑 使 用 原生 指针 型 来 实现 。 

crowbar 中 已 经 默认 声明 了 STDIN、STDOUT、STDERR 等 全 局 变量 , 分 别 对 应 

C 语言 中 的 stdin、stdout、stderr。 


3.1.8 | 让 crowbar 支持 C 语言 调用 


考虑 到 crowbar 的 用 途 之 一 是 扩展 应 用 程序 ， 那 么 应 当 让 C 语言 编写 的 其 他 
应 用 程序 可 以 很 容易 地 调用 crowbar 解释 需 。 

0 3-3 是 与 当前 版 本 crowbar 所 属 的 main.c 基本 一 样 的 代码 段 。 调 月 
里 面 这 些 函数 ， 需 要 用 #include 包含 CRB.h 文件 。 


CRB_ Interpreter *interpreter; 
FILE *fp; 
/* 中 间 省 略 */ 




































































二 








/* 生成 crowbar 解释 器 */ 


interpreter = CRB create interpreter(); 


/* 将 FILE* 作为 参数 传递 并 生成 分 析 树 */ 


CRB compile(interpreter, fp); 








/* 运行 %/ 








CRB interpret (interpreter); 
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/* 运行 完毕 后 回收 解释 器 */ 


CRB dispose interpreter (interpreter); 


3.1.9 从 crowbar 中 调用 C 语言 ( 内 置 函 数 的 编写 ) 


反 过 来 ， 从 crowbar 中 调用 CC 语言 的 也 数 (内置 函数 ) 也 同样 容易 。 
首先 用 #include 包含 面向 开发 人 员 的 头 文件 CRB devh， 像 下 面 这 样 表 示 
C 函数 : 








EREEVelue nodeaneodea vel(eRplneereter mtersre 
Eee ORE We era) 


{ 
AX* 中 间 省 略 */ 


return value; 








这 里 调用 的 interpreter 是 指向 解释 需 的 指针 ，arg_count 代表 向 该 天 
数 传递 的 参数 的 数量 ，args 是 参数 的 值 ( CRB_Value 类 型 详 见 3.3.8 节 )。 
crowbar 是 无 类 型 语言 ， 因 此 参数 的 数量 与 类 型 的 检查 都 必须 在 内 置 也 数 
进行 。 
通过 这 种 方式 制作 出 的 C 晒 数 ， 通 过 CRB adq native function() 也 
数 即 可 注册 到 解释 器 中 ， 成 为 crowbar 的 内 置 函 数 。 


/* 将 C 的 函数 hoge_hoge_func 注册 为 一 个 crowbar 可 以 调用 的 内 部 函数 
并 命名 为 hoge hoge */ 


GRE te metlienla me ene 















































UnssS ass esEnecEEOIS 


医 可 预先 准备 


crowbar 的 语言 处 理 咒 有 一 定 的 行 数 规模 (最终 版 有 8000 行 左 右 )， 因 此 应 
当 预 先 约 定编 码 规范 ， 并 准备 好 底层 的 库 。 
那么 让 我 们 暂时 离开 语言 处 理 器 ， 先 准备 下 面 这 些 事项 吧 。 
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3.2.1 | 模块 与 命名 规则 


crowbar 由 以 下 3 个 模块 构成 : 

e@ crowbar 主 程序 ( CRB ) 

@ 内 存 管理 模块 ( MEM ) 

e Debug 模块 ( DBG ) 

括号 中 的 CRB、MEM 等 是 模块 名 。 

这 里 我 所 指 的 模块 ， 即 可 以 完成 某 些 特定 功能 的 程序 块 。 一 个 模块 中 基本 都 
会 包含 多 个 .c 文件 。 

MEM 与 DBG 均 为 通用 模块 ， 并 不 是 crowbar 专用 的 。 代 码 分 别 位 于 
crowbar 文件 夹 下 的 memory 、debug 子 文件 夹 中 。 

C 语言 中 没有 C++ 和 C# 的 命名 空间 ， 也 没有 Java 中 的 包机 制 ， 因 此 必须 种 
定 命 名 规范 来 避免 可 能 出 现 的 命名 冲突 。 因 此 我 们 使 用 以 下 的 命名 规范 。 






































l 























一 局 











1. 模块 必须 有 前 缀 3 个 字母 的 缩写 ( 如 : CRB ) 。 

2. 类 型 名 ， 以 大 写字 母 开始 ， 并 使 用 下 划 线 连接 单词 ( 如 : CRB Interpreter)。 

3. 变量 名 /函数 名 ， 全 部 使 用 小 写字 母 ， 使 用 下 划 线 连接 单词 (如 : alloc_ex- 
pression() ) 。 

4. 宏 命 名 为 全 大 写字 母 ， 使 用 下 划 线 连接 单词 ( 如 : IDENTIFIER_TABLE_ALLOC 
SIZE ) 。 但 如 果 是 带 参 数 的 宏 ， 特 别 是 函数 功能 的 部 分 ， 则 要 遵循 函数 的 命 
名 规则 ( 如 ，small(a，Db) ) 。 

5. 模块 中 向 外 公开 的 函数 ， 命 名 以 模块 名 ( 大 写字 母 ) + 下 划 线 作为 前 缀 
( 如 : CRB create interpreter() jg 

6. 模块 中 不 对 外 公开 的 函数 ， 如 果 函 数 的 作用 域 跨 文件 时 ， 则 函数 名 以 模块 名 ( 小 
写字 母 ) + 下 划 线 作为 前 缀 ( 如 : crb alloc expression() ) 。 

7. 函数 外 的 静态 变量 名 以 st_ 作 为 前 级 ( 如 : st_string literal buffer)。 


各 模块 中 癌 外 部 公开 的 接口 需要 做 成 公有 头 文件 的 形式 ， 在 头 文件 中 定义 了 
公开 函数 以 及 调用 模块 所 需 的 类 型 。 比 如 crowbar 中 ， 想 使 用 crowbar 解释 央 就 
需要 包含 CRB.h， 而 编写 crowbar 的 内 置 函 数 则 需要 包含 CRB devh。 

各 模块 内 部 使 用 的 类 型 、 宏 、 函 数 等 ， 则 可 以 声明 为 私有 头 文件 。 比 如 
在 crowbar 中 ，crowbar.h 就 是 一 个 私有 头 文 件 ， 其 中 声明 的 类 型 名 或 宏 无 需 附 
加 CRB_ 前 级 (因为 外 部 是 接触 不 到 的 )。 但 是 函数 与 全 局 变量 ， 为 了 以 防 万 一 还 
是 需要 加 上 crb 前 级 的 。 
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图 3-2 
crowbar 的 模块 与 目录 
结构 





2.3.1 节 后 的 补充 知识 中 曾 写 道 ， 


3:2 





预先 准 














1073 





所 有 的 头 文件 应 当 尽 量 只 用 一 


个 #include (前 提 是 已 经 加 入 了 防止 多 重 定义 的 处 理 )。 因此 大 多 数 情况 下 ， 私 


有 头 文件 内 部 可 以 用 #include 包含 公有 头 文件 ， 反 之 则 不 行 。 内 部 文件 中 使 用 
公共 信息 ， 而 外 部 文件 中 则 不 能 含有 私有 信息 ， 这 应 该 不 难 理解 。 








经 过 上 述 的 处 理 ， 各 模块 的 内 部 细节 都 可 以 对 其 他 模块 实现 隐藏 ( 即 面 向 对 
象 中 常 提 到 的 封装 概念 )。 此 外 , 在 C 语言 中 ， 头 文件 修改 后 包含 该 头 文件 的 源 











代码 都 需要 重新 编译 。 将 头 文件 划分 为 公有 及 私有 ， 




















改 ， 那 么 用 户 利用 公有 头 文 件 编写 的 程序 也 就 无 需 重 新 编译 了 。 
crowbar 的 模块 与 目录 结构 如 图 3-2 所 示 。 


${CROWBAR} ( crowbar 所 在 目录 





CRB .hnh… 图 





CRB_dev.h- 


crowbar 用 户 的 





















































日 








向 内 











函数 开发 人 员 的 接口 








MEM.Ph… 面 FE 


























DBG.h… 面 





MEM 用 户 的 接 
可 DBG 用 户 的 接 


























make 可 以 生成 的 执行 文件 及 main.c 等 


依赖 


$ {CROWBAR} /memory 














( MEM 所 在 目录 ) 




















依赖 












$ {CROWBAR} /debug 
( DBG 所 在 目录 ) 








区 内 存 管理 模块 MEM 


经 常 使 用 C 的 程序 员 应 该 深 有 体会 ,用 C 语言 编程 时 ， 难 免 会 遇 到 诸如 内 存 
损坏 ( memory corruption ) BUG 、 忘 记 释 放 内 存 引起 内 存 泄 漏 、 引 用 的 内 存 区 域 
总 之 围绕 内 存 经 常会 发 生 很 多 让 人 讨厌 的 BUG。 

而 由 于 crowbar 还 设置 有 字符 串 型 的 变量 ,可 以 用 + 运算 符 连接 字符 串 ， 
此 我 们 必须 配置 某 种 垃圾 回收 机 制 。 比 如 : 





被 释放 让 BUG 难以 重 现 等 问题 ， 


as= "ar + bv + en 


这 个 语句 运行 的 时 候 ， 首 先 执行 "a" + "bp" 语句 生成 字符 串 "ab"， 
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只 要 保证 公有 头 文件 不 修 


然后 
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] 
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为 了 继续 生成 "abc"， 
3.3.11 节 。 正 是 由 于 运行 时 需要 运行 很 多 这 样 人 繁复 的 处 理 ， 很 容易 出 现 BUG ， 所 


以 需要 有 一 种 方法 来 确认 内 存 中 到 底 发 生 了 什么 。 


"ab" 的 内 存 空 








八 闪 也 


Np | 


间 必 须 自 








动 释放 。 具 体 的 运行 过 


寸 程 请 参考 


基于 上 述 理由 ,我 制作 了 一 个 具备 下 列 功 能 的 内 存 管理 模块 。 模 块 名 为 


MEM， 按 之 前 的 命名 规范 ， 所 有 的 公共 函数 都 以 MEM_ 为 前 级 。 








1 . 


2. MEM 




















通过 MEM malloc 
规 的 malloc () 函数 


可 以 分 配 内 存 空 


s 间 ， 内 存 空 








s 间 ] 








) 品 
开 鲜 的 内 存 空间 











]1 





直 为 0 的 情况 很 多 ， 














程 。 而 0xCC 毫 无 疑 


过 程 。 


realloc 


() 用 











辟 的 内 存 空 





间 用 




















地 发 现 由 于 引 











| 用 


MEM free 人 
被 释放 的 内 存 空 


问 是 


于 扩充 内 存 空 


s 间 |] 时， 
释放 
间 而 引 上 


个 无 意义 的 值 ， 这 样 


时 














BUG。 














内 


























辟 的 





多 式 保 存 所 





MEM 模 块 会 
其 转 储 。 


























义 链球 
转 储 后 可 
malloc() 开 


辟 








| 


义 








的 内 存 空 





将 MEM mal1locj 
s 间 ， 在 不 用 











门 在 编程 时 





上 2 




















. MEM malloc 


block () 仍然 看 至 


结果 输 




















辟 的 内 存 空 








() 

















3 ， 检 查 这 些 记 号 就 可 以 矢 
令 查 还 需要 配合 使 


这 个 


blocks () 等 函数 。 


遵守 的 一 个 准则 。 
出 的 话 ， 就 可 
间 在 传递 给 程序 使 
于 数组 越界 等 问题 引 走 








始 处 默认 填充 有 0xCC。 常 
因此 很 容易 遗漏 初始 化 过 
就 可 以 确保 能 够 检查 出 被 遗漏 的 初始 




















也 会 默认 填充 0xCC。 
被 填充 的 0xCC 也 会 
刀 的 
J 存 空 





1 此 可 以 较 





被 释放 。 











间 ， 可 以 使 用 MEM dump block() 将 























的 源 文件 名 及 行 


|: 0 
3 EE 示 出 来 。 














可 区 





的 时 
那么 如 果 在 程序 





候 一 定 要 用 上 





结束 时 调 


ree () 释放 ， 这 是 我 
用 MEM dump_ 











以 断定 某 处 发 




















十 j 








内 存 泄 漏 。 




















后 会 加 上 0xcD 的 记 











时 ， 





2 的 内 








0 道 


























MEM check block().、 


空间 前 





存 损坏 程度 了 。 
MEM check all 





通过 MEM 管理 














yh 





内 存 管 




















双向 链表 管理 内 存 








理 模 块 MEM 会 以 图 3-3 的 形式 管理 内 存 。 








图 灵 社 区 

































_FILE_ 和 _LINE_ 
当前 内 存 空间 被 
源 文 件 名 及 行 号 。 





代表 


开辟 的 


会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 
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很 简单 的 模块 ， 功 能 虽然 简单 ， 但 对 于 BUG 的 检查 非常 有 用 。 

对 于 动态 开辟 的 内 存 空间 ， 经 党 会 先 开辟 若干 个 小 型 的 区 域 ， 然 后 将 这 些 区 
域 一 起 释放 。 分 析 树 的 节点 就 是 典型 的 例子 。 开 辟 空 间 会 一 点 一 点 地 进行 ， 释 放 
则 是 一 次 性 的 。 对 此 ，MEM 模块 引入 了 存储 器 〈 storage )， 作 为 开辟 内 存 的 常规 
工具 


vo 









































1. 由 MEM_open _storage() 生成 一 个 新 的 存储 器 。 

2. MEM_storage_malloc() 可 以 接受 存储 器 和 空间 的 大 小 作为 入 口 参数 ， 并 i 
所 请 求 大 小 的 内 存 空间 。 

3. 由 MEM_dispose_storage () 将 存储 器 内 所 有 的 内 存 空间 全 部 释放 。 














疯 
回 















































MEM_storage_malloc() 会 将 MEM_open_storage () 开辟 的 较 大 内 存 
空间 ， 从 起 始 处 按照 请 求 的 尺寸 一 次 性 全 部 返回 。 因 此 无 法 对 其 中 的 子 空间 单独 
释放 ， 也 不 能 通过 realloc () 扩展 空间 。 


补充 知识 。 valgrind 


我 们 手动 实现 了 模块 MEM， 它 可 以 检查 由 于 C 语言 操作 内 存 而 引起 区 
实 也 有 很 多 其 他 工具 具备 同样 的 功能 。 
以 前 这 类 工具 大 都 是 需要 付费 的 ， 不 过 在 Linux 环境 下 ， 可 以 使 用 自由 软 
valgrind ( 许可 证 为 GPL )。 
通常 我 们 使 用 下 面 的 方式 启动 程序 ( % 是 命令 行 提 示 符 )。 


当 crowbar test .crb 


而 执行 如 下 指令 的 话 ， 


Svalcinad erowDarmtest er 


可 以 帮助 我 们 检查 是 否 忘记 释放 内 存 ( 或 内 存 泄漏 )， 以 及 是 否 在 程序 开辟 的 内 存 
空间 外 部 进行 了 写 入 。 
可 能 有 读者 会 问 ， 有 这 么 方便 的 工具 为 什么 还 要 制作 MEM 模块 呢 ? 实际 上 ， 我 在 
写 MEM 模块 时 完全 不 知道 有 valgrind 这 个 工具 ， 算 是 重复 发 明 轮 子 了 。 不 过 自己 实现 
一 个 这 样 的 工具 也 是 有 好 处 的 吧 。 

valgrind 的 详细 内 容 ， 请 参考 官方 主页 http:/valgrind.org/。 
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MEM 模块 中 ， 在 应 用 程序 所 使 用 的 内 存 空间 前 后 分 别 加 上 了 管理 专用 空间 。 比 如 
开发 环境 中 int 型 或 者 指针 一 般 占用 4 字 节 ，double 型 一 般 占用 8 字 节 ， 而 其 管理 空 
间 前 面 占用 24 字 节 ， 后 面 则 有 8 字 节 ( 包含 校 验 信息 )。 
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参考 URL : http:/wwwv. 
pitecan.com/fugo.html 
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那么 如 果 生成 很 多 对 象 时 ， 肯 定 会 浪费 很 多 内 存 空间 。 
然而 对 于 现在 的 电脑 来 说 ， 这 种 程度 的 浪费 简直 是 微不足道 的 。 与 其 冥 思 苦 想 节 省 
内 存 空间 或 提高 处 理 速 度 的 小 技巧 ， 倒 不 如 专注 于 如 何 提高 开发 效率 。 这 种 编程 方式 就 


叫 作 富翁 式 编程 *。 








crowbar 的 实现 就 非常 





之 


“富翁 "。 比 如 


























crowbar 书写 的 程序 





会 出 现 hoge _ 

















piyo_foo_ bat 这 样 
很 常见 的 。 在 程序 
的 解释 器 将 会 预先 对 所 
需要 












































个 变量 





量 。 对 


中 ，hoge piyo foo bar 变量 
出 现 的 变量 名 分 配 好 空 





现代 编程 语言 来 说 ， 这 样 





长 的 变量 名 或 函数 名 是 











时 名 可 和 能 还 会 











出 现 若干 次 ，crowbar 














strcmp () 简单 地 对 当前 变量 名 做 一 








致 性 检查 =) 





函数 时 ， 都 采用 线性 检索 。 

















这 样 设计 当然 可 能 会 出 现 运 行 速度 慢 的 情况 ， 即 便 如 此 ， 

















s 问 ， 当 然 这 都 是 要 消耗 内 存 的 ， 最 终 只 
就 可 以 Jo 另外 ， 


在 检索 变量 或 


















































大 化 也 不 迟 。 在 前 期 优先 考虑 的 应 该 是 如 何 让 程序 台 


等 到 状况 发 生 时 再 
加 容易 编写 、 理 解 起 来 更 加 简单 。 


想 办 法 























补充 知识 


符号 表 与 扣留 操作 














刚刚 提 到 过 ， 无 论 是 内 存 空 




















式 ” 的 。 那 么 如 果 在 此 








础 上 想 要 进 
正如 上 文 所 述 ，crowbar 对 了 








F 程 序 


s 间 还 是 处 理 速 度 ，crowbar 的 内 这 





“2 
































存 。 如 果 变 量 名 较 长 时 比较 浪费 ， 





率 的 方法 。 























体 来 说 ， 程 序 中 会 存在 一 个 





步 提高 运 运行 效率 的 话 要 怎样 





了 实现 都 是 比较 
做 呢 ? 


国光 








中 多 次 出 现 的 变量 名 等 ， 会 分 别 























函数 ， 为 所 有 出 现 的 特征 符 建立 数据 



































操作 称 为 扣留 ( intern )。 对 


特征 符 如 果 已 经 被 记录 则 会 返回 其 



























































局 变量 ， 或 是 函数 名 ( 当然 





























对 程序 中 出 现 的 所 有 的 标识 符 














一 个 日 


寸 ， 只 需要 比较 它们 





的 指针 就 























可 以 J 


o。 这 比 









































而 crowbar 对 于 局 部 变量 、 

















出 现 变量 名 时 ， 将 从 链表 头 






































开辟 空间 将 其 保 





为 此 将 同名 变量 整合 为 一 处 保存 ， 不 失 为 一 个 提高 效 





结构 ， 新 出 现 的 








进行 扣留 操作 的 话 ， 在 关 





指针 ， 如 果 尚 未 记录 则 会 新 录入 并 返 





回 指针 。 这 样 的 


























个 标识 符 进行 扣留 操作 时 ， 无 需 判别 该 标识 符 是 局 部 变量 
行 判别 也 无 妨 )。 












































局 变量 和 函数 则 分 别 使 
部 开始 检索 ( 采用 线性 检索 )。 


考虑 引入 缓存 、 树 或 二 分 法 查找 等 。 刚 才 提 到 的 这 些 数据 结构 及 算 ; 




















言 处 理 器 普遍 使 用 的 ， 读 者 可 以 自 和 











一 般 来 说 ， 我 们 将 编译 器 保存 变量 名 、 





3.2.3 | 调试 模块 DBG 


DBG 是 调试 时 使 用 的 模块 ， 有 具备 若干 功能 ， 在 crowbar 的 代码 中 使 用 的 话 ， 


-™ 

















只 需要 调用 宏 DBG_assert () 


图 灵 社 区 会 员 


及 


DBG_panic () 











断 两 个 标识 


strcmp () 更 快 。 























链表 进行 


Z] 一 As 
理 





语句 中 

















如 果 要 优化 这 个 








部 分 ， 可 以 




















即 可 。 
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， 都 是 编程 语言 语 


了 查阅 相关 图 书 或 网 站 。 
函数 名 的 数据 结构 称 为 “符号 表 "。 


/* 断言 这 里 a 的 值 应 该 为 5 */ 





DBCYaSSert(a 5 0 


这 样 书写 的 话 ， 当 a == 
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a 


5 这 一 条 件 不 成 立时 ， 程序 会 将 该 处 的 源 代 


码 行 号 输出 并 执行 abort () 。 dai 
给 printf () 并 格式 化 ( 因为 宏 无 法 使 用 可 变 长 度 的 参数 ， 因 此 需要 从 第 二 参数 


起 全 部 用 括号 括 起 来 )。 


DBG 的 输出 目标 可 以 通过 DBG_set_debug write fp() 国 数 进行 更 改 ， 








标准 输出 目标 是 stderr。 而 输出 








目标 无 论 如 何 更 改 ，stderr 仍然 会 保留 一 份 同样 





的 信息 。 因 此 如 果 不 做 任何 更 改 的 话 ， 会 看 到 stderr 输出 的 是 两 行 同样 的 信息 。 











就 是 switch case 的 default 








DBG_panic() 函数 可 以 书写 在 一 些 程序 不 应 该 进入 的 分 支 处 。 胃 型 的 例子 


分 支 ， 如 : 


/* 变量 operator 通过 switch case 判断 分 支 条 件 














default 分 支 在 正常 情况 下 不 应 当 进入 */ 





GeRearE 
DBG_panic((“bad case... 


$d", operator)); 














与 DBG assert () 一 样 ， 用 两 层 括 号 包 里 ， 最 终 会 通过 printf () 格式 化 


DBG assert( 














与 DBG_panic() 都 是 宏 , 只 要 在 定义 #define DBG NO_ 


) 
DEBUG 的 状态 下 编译 ， 就 可 以 完全 删除 执行 文件 中 的 调试 部 分 。 


了 [3] crowbar ver.0.1 的 实现 

















预 移 准备 已 经 差不多 了 ,终了 


F 可 以 开始 阅读 crowbar book ver0.1 的 代码 了 。 


3.3.1 | crowbar 的 解释 器 一 一 CRB_Interpreter 





一 般 来 说 ， 程 序 的 数据 结构 要 比 运行 流程 更 加 重要 ， 因 此 我 们 就 从 crowbar 


解释 器 所 用 的 结构 体 CRB_Interpreter 开始 看 起 。 





想 使 用 crowbar， 首 先 需 要 生成 解释 右 ， 然 后 将 解释 此 的 源码 传递 给 编译 融 


(生成 分 析 树 )， 就 可 以 运行 了 。 
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解释 器 的 定义 如 下 所 示 ( 位 于 crowbarh)。 注 意 CRBh 中 公开 的 CRB_ 
Interpreter 是 这 个 结构 体 的 不 完全 定义 ， 下 面 这 个 结构 体 定 义 本 身 对 外 是 隐 
藏 的 。 





struct CRB Interpreter tag { 


MEM Storage teretermstorade 
MEM Storage execuEegsecager 
WEiESaLElel elaloler 


Fumet onmet mm itionn Emmet lion st 
StatementList Stalemnenease, 
mn Cumrenen mennumber 


pa 
解释 器 会 保存 以 下 内 容 : 


1. 与 解释 器 相同 生命 周期 的 MEM Storage ( interpreter storage) 

不 再 需要 分 析 树 时 ， 需 要 将 其 释放 ， 如 3.2.2 节 所 述 ， 可 以 使 用 内 存 管理 模 
块 MEM 提供 的 存储 器 功能 来 管理 。 

interpreter_storage 存储 器 ， 在 解释 器 生成 时 被 生成 ， 解 释 需 废弃 的 
同时 被 释放 。 通 过 CRB_Interpreter 自己 来 开辟 这 个 存储 需 。 

该 存储 需 在 内 存 中 的 开辟 ， 是 通过 位 于 util.c 中 的 crb malloc() 工具 也 数 
实现 的 。 












































2. 运行 时 使 用 的 MEM Storage ( execute _ storage ) 

execute_storage 是 运行 时 使 用 的 存储 器 。 不 过 由 于 运行 时 必 备 的 数据 结 
构 大 多 数 都 没有 固定 的 释放 顺序 ， 因 此 execute_storage 现 阶段 主要 用 于 存 
放 全 局 变量 。 


3. 全 局 变量 链表 ( variable ) 
Variable 结构 体 的 定义 如 下 所 示 : 


typedef struct Variable tag { 

char *name; /* 变量 名 */ 

CRB Value ”value; /* 变量 值 */ 

struct Variable tag *next; /* 指向 下 一 个 变量 的 指针 */ 
} Variable; 


首先 这 个 结构 体 中 有 next 这 一 成 员 ， 这 是 为 了 构建 链表 用 的 。CRB_ 
Interpreter 的 成 员 variable 保存 在 最 开头 。 通 过 这 样 的 链表 ， 可 以 得 到 所 
有 的 全 局 变量 。 
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全 


crowbar 中 变量 
链表 也 会 越 来 越 长 。 
Variable 结构 体 的 name 成 员 顾 名 思 











是 在 首次 赋值 时 生成 的 ， 因 此 在 运行 时 
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A 


会 有 变量 逐一 进 


SA 


义 会 保存 变量 名 ， 而 value 成 员 则 会 


保存 该 变量 的 值 ， 具 体 请 参考 3.3.8 节 对 CRB_Value 的 说 明 。 


4. 函数 定义 链表 ( function 1ist ) 























function list 是 记录 crowbar 中 编 


写 函 数 的 链表 。 语 法 解析 时 会 创建 这 











个 function list 以 及 下 面 的 statement list。 
FunctionDefinition 类 型 的 定义 如 下 所 示 : 


typedef enum { 
CROWBAR FUNCTION DEFINITION 
NATIVE FUNCTION DEFINITION 
} FunctionDefinitionType; 


1, 


/* crowbar 中 定义 过 的 函数 */ 
/* 内 置 函数 */ 





typedef struct FunctionDefinition tag { 


char *name; /* 函数 名 */ 
FunctionDefinitionType type; /* 函数 的 类 型 */ 
union { 
See 
ParameterList *parameter; /* 参数 的 定义 */ 
Block *block; /* 函数 的 主体 */ 


} crowbar f; 
struct { 
CRB NativeFunctionproc 
} native f; 
ur 
SErust nunctonDeFmionatsg 
} FunctionDefinition; 





FunctionDefinition 类 型 的 type 














/* 后 文 详 


Eee 














/* 链 款 





wexEl 





成 员 中 ， 会 区 分 crowbar 定义 的 函数 


以 及 内 置 函 数 。crowbar 定义 的 函数 会 使 用 下 面 联合 体 u 的 crowbar_f， 而 内 置 





函数 则 会 使 用 nat ive f。 通过 这 种 方法 ， 
似 继承 的 功能 ( 具体 方法 之 后 会 慢 慢 提 到 )。 


crowbar 定义 的 函数 会 通过 crowbar_ 
(执行 语句 )。ParameterList 结构 体 如 下 所 示 ， 

















( crowbar 是 无 类 型 语言 ， 无 需 保 存 变 量 类 
typedef struct ParameterList tag { 
ehar *name; 


Seructeeorametermtasa nex 


今 - 
jE 


可 以 让 没有 继承 概念 的 C 语言 


实现 类 


参 


< 


E 成 员 保存 其 函数 参数 及 函数 主体 
全 


会 将 变量 名 做 成 链表 并 保存 


、 


变量 类 型 js 


/* 变量 名 */ 
/* 链表 所 用 指针 */ 
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YE 


} ParameterList; 


用 block 成 员 保 存 子 数 的 执行 语句 。block 是 Block 类 型 的 结构 
体 ，Block 类 型 的 定义 如 下 所 示 : 








typedef struct { 
StatementList Statenentals en 
} Block; 


StatementList 正如 其 名 称 ， 是 语句 的 链表 。 其 结构 体内 容 请 参考 第 5 项 。 


5. 语句 链表 ( statement list) 

statement_1ist 是 语句 的 链表 。 其 类 型 与 上 面 的 Block 结构 体 保存 时 所 
用 的 statementList 类 型 相同 。 无 论 是 冰 数 定义 { } 内 的 语句 ， 还 是 顶层 结 
构 中 的 语句 ， 从 内 部 来 讲 都 保存 在 StatementList 中 。 

crowbar 的 解释 器 在 语法 解析 后 ， 顶 层 结构 的 语句 ， 也 就 是 statement_ 
list 最 开头 保存 的 语句 会 按照 顺序 开始 执行 。 








6. 编译 时 当前 的 行 号 ( current line number ) 
出 现 错误 信息 需要 行 号 。current_line_number 可 以 在 编译 时 显示 当前 
的 行 号 。 
current_line_number 在 编译 结束 后 不 会 再 使 用 。 运 行 时 如 果 发 生 错 误 
当然 也 需要 显示 行 号 ， 这 里 的 行 号 保存 在 分 析 树 的 语句 节点 中 。 
补充 知识 ”不 完全 类 型 
CRB_Interpreter 类 型 结构 体 是 在 crowbar 的 私有 头 文件 crowbar.h 中 定义 的 。 
不 过 这 是 供 解释 器 内 部 使 用 的 数据 结构 ， 不 应 该 向 外 部 公开 。 
而 生成 解释 器 的 函数 CRB_create interpreter()， 它 的 原型 定义 则 是 在 公有 
头 文件 CRB.h 中 : 






















































































CE Inieriees "ERE ceae nenneer or 











CRB_create interpreter() 返回 值 的 类 型 为 CRB_ Interpreter*,， 为 了 支 
持 这 样 的 原型 定义 必须 首先 定义 CRB_Interpreter 结构 体 。 但 是 我 们 不 能 把 解释 器 
的 内 部 定义 直接 拿 出 来 放 在 公有 头 文件 中 。 
应 对 这 种 情况 可 以 使 用 不 完全 类 型 。 公 有 头 文件 中 只 定义 结构 体 的 标识 符 ， 实 际 的 
定义 是 由 私有 头 文件 传递 给 公有 头 文件 的 。 
比如 上 面 的 CRB_Interpreter 类 型 ， 在 CRB.h 中 可 以 做 如 下 的 标识 符 定 义 ， 并 
用 typedef 命名 。 
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代码 清单 3-4 
Crowbar'| 


Eveedetes i erage 


这 种 状态 的 CRB_Interpreter 就 是 不 完 





不 完全 类 型 只 能 使 用 指针 ， 即 指向 不 完 4 








REBELINEerpreteratage 
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全 类 型 。 





REBELNtermDreterr 


















































文 是 


型 本 身 也 无 
不 完全 类 型 的 大 小 的 ， 当 然 也 无 法 引用 其 成 员 。 

















类 型 的 指针 的 变量 无 法 被 声明 ， 不 完全 类 
人 


明 变 量 ， 对 不 完全 类 型 无 法 使 用 sizeof。 









































妹 此 ， 我 们 是 无 法 知道 一 














大 | 








而 crowbar.h 是 类 型 初始 定义 所 在 的 地 方 ， 





| 这 


有 的 CRB_Interpreter 类 型 就 不 是 不 完全 类 型 。 
































二 人 < 二 

















上 述 都 是 





名 











此 写 了 下 来 。 


这 些 限制 ( 详 见 3.3.1 节 )。 























C 语言 编程 中 必须 掌握 的 


些 技 巧 ， 





拟 忆 


外 地 发 现 似 乎 了 解 的 人 不 多 ， 





3.3.2 | 词法 分 析 一 一 crowbar.l 

















crowbar 的 lex 定义 文件 是 crowbar.l。 


源 代码 的 摘录 版 本 如 代码 清单 3-4 所 示 。 








1: %{ 
省 略 c 编码 部 分 
19: $} 
开始 条 件 
20: %start COMMENT STRING LITERAL STATE 
和 2 
保留 字 的 定义 
22: <INITIAL>"function" return FUNCTION; 
223 <TNITTALSIEY return TR; 
省 略 其 他 的 保留 字 定 义 
符号 类 的 定义 。LP，RP 是 Left/Right Paren 的 缩写 
LC，RC 是 Left/Right Curly ( 花 括号 ) 的 缩写 
35a KLINITIALS.(" return LP; 
36: <INITIAL>")" return RE; 
373 SINITIALSTYY return. LEC; 
38: <INITIAL>"}" return RC 
省 略 其 他 的 符号 定义 
标识 符 ( 变量 名 、 函 数 名 等 ) 
55: <INITIAL>[A-2a-z ] [AR-Za-z 0-9]* { 
56 : yylval.identifier = crb create identifierl(yytext); 
S57: return IDENTIFIER; 
58: } 
数值 。 整 数 类 型 与 实 0 处 理 ， 与 mycalc.y 相同 
59: <INITIAL>([1-9] [0-9]*)|"o" { 
60: Expression *expression = crb alloc expression (INT EXPRESSION); 
61: sscanf (yytext, "%d", &expression->u.int value); 
62: yylval .expression = expression; 
63: return INT LITERAL; 
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64: : 

65: <INITIAL>[0-9]+\.[0-9]+ { 

66: Expression *expression = crb alloc expression (DOUBLE EXPRESSION); 

67: sscanf (yytext, "%lf", &expression->u.double value); 

68 : YY1LVal .expression = expression; 

69': return DOUBLE LITERAL; 

了 85: } 
定义 字符 串 开 始 

71: <INITIAL>\" { 

22 crb open string literal(); 

让 BEGIN STRING LITERAL STATE; 

74: } 

75: <INITIAL>[ \t] ; 
遇 到 换行 符 则 增加 行 号 

76: <INITIAL>\n {increment line number ();} 
定义 注释 的 开始 

77: <INITIAL># BEGIN COMMENT; 
如 果 不 符合 上 述 定 义 ， 则 为 非法 字符 并 报错 

78: <INITIAL>. { 

9s char buf [LINE BUF SIZE]; 

80: 

81: if (isprint (yytext [0])) { 

82: buf[0] = yytext [0]; 

83: buf [1l] s "VO. 

84: } else { 

85: sprintf (buf, "Ox%$02x", (unsigned char)yytext [0]); 

86:; } 

B73 

88 : crb compile error (CHARACTER INVALID ERR, 

B93 STRING MESSAGE ARGUMENT, "bad char", buf, 

90: MESSAGE ARGUMENT END); 

913 } 

92: <COMMENT>\n { 

93: increment line number(); 

94: BEGIN INITIAL; 

5 } 

96: <COMMENT>. 家 

97: <STRING LITERAL STATE>\" { 

983 Expression *expression = crb alloc expression (STRING EXPRESSION); 

99: expression->u.string value = crb _ close string literal (); 

100: yylval .expression = expression; 

01 BEGIN INITIAL; 

T0232: return STRING LITERAL; 

103: } 

104: <STRING LITERAL STATE>\n { 

TO5.: crb add string literal('\n'); 

106: increment line number(); 
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07 他 

108: <STRING LITERAL STATE>\\\" crb add string literal('"') 

109: <STRING LITERAL STATE>\\n crb add string literal('\n'); 
110: <STRING LITERAL STATE>\\t crb add string literal('\t'); 
111: <STRING LITERAL STATE>\\\\ erb. add string literal(™\\);y 
112: <STRING LITERAL STATE>. crb add string literal (yytext [0] ); 
113: %% 














crowbar.] 与 之 前 计算 器 的 例子 mycalc.l1 相 比 (代码 清单 2-1 ) 要 长 很 多 , 但 
本 质 上 没有 太 大 变化 ， 只 是 使 用 了 新 的 开始 条 件 功能 。 与 mycalc.1 不 同 的 是 ,在 
crowbar1l 的 大 部 分 规则 前 都 要 书写 <INITIAL>， 这 就 是 开始 条 件 。 

在 crowbar 中 ， 开 始 条 件 主 要 用 于 分 割 注释 与 字面 常量 ( literal )。 

crowbar 的 注释 由 # 开头 直 到 行 尾 ， 可 以 用 简单 的 正则 表达 式 #.*s$ 将 其 分 
制 ， 分 割 出 的 注释 暂时 保存 在 全 局 变量 yytext 中 。 

在 以 前 的 lex 处理 需 中 ， 给 yytext 分 配 了 一 个 固定 大 小 的 char 数组 ， 
而 且 数 组 的 大 小 是 无 法 扩展 的 。 不 过 包含 flex 在 内， 最 近 发 布 的 lex 处 理 器 
中 ，yytext 已 经 更 改 为 charx ， 当 一 个 很 长 的 记号 进入 时 ， 也 可 以 动态 扩展 储 
存 空间 ， 注 释 最 终 也 是 要 被 丢弃 的 ， 如 果 还 在 这 里 特意 去 扩展 存储 空间 的 话 ， 就 
显得 有 点 策 了 。 

crowbar 的 字面 常量 与 C 语言 一 样 , 是 包含 \n 和 At 的 , 还 可 以 通过 \" 显示 
双 引 号 本 身 ， 因 此 简单 通过 \".*\" 的 正则 表达 式 规则 进行 匹配 是 不 行 的 。 

应 对 这 种 情况 可 以 使 用 开始 条 件 。 在 动作 中 书写 BEGIN COMMENT 切换 
lex 的 状态 ， 其 对 应 的 规则 就 变 成 后 面 用 <COMMENT> 开始 的 部 分 了 。lex 使 
用 INITIRAL 定义 了 开始 条 件 的 初始 状态 。 

crowbar1 中 ， 通 过 下 面 的 处 理 将 注释 读 入 并 丢弃 。 
























































NA BEGIN COMMENT; 
中 间 省 略 

92 : <COMMENT>\n Mn 

De Inner emene ln ume 

94: BEGIN INITIAL; 

cep 


96: <COMMENT>. 7 
代码 第 77 行 ，INITIAL 状态 下 如 果 有 # 进入， 则 转换 为 COMMENT 状态 。 
crowbar 的 注释 由 # 开始 直至 行 尾 ， 因 此 在 COMMENT 状态 下 如 果 遇 到 换行 则 切换 
回 INITIAL 状态 (第 92 ~ 95 行 的 ijncrement line number() 会 在 后 文 详 
述 ) 所 以 ，COMMENT 状态 下 会 将 除 换行 符 以 外 的 字符 全 部 丢弃 (第 96 行 )。 
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关于 字符 串 的 字面 常量 处 理 ， 开 始 时 调用 crpb_open string liter- 
al() ， 中 间 的 字符 通过 crb adqd string literal() 追加 ， 最 后 通过 crb_ 
close string 1iteral () 结束 一 个 字符 串 的 处 理 。 

在 这 个 过 程 中 ， 字 符 串 会 被 保存 在 string.c 的 st string literal_ 
buffer 这 一 static 变量 中 。 我 本 人 对 于 使 用 static 变量 还 是 有 些 抵制 的 ， 
但 是 鉴于 我 们 只 能 把 yacc/lex 作为 工具 来 使 用 ， 即 使 有 什么 想法 也 无 法 修改 〈 至 
少 老 版 本 是 不 允许 修改 的 )， 因 此 crowbar 最 终 还 是 允许 在 编译 需 中 使 用 静态 变量 
的 〈 请 参考 本 节 的 补充 知识 )。 

语言 处 理 器 在 编译 时 如 果 发 生 错 误 ， 需要 显示 错误 信息 ， 因 此 错误 信息 中 必 









































须 包含 行 号 。 
在 crowbar1 中 的 对 应 处 理 是 ， 每 换行 一 次 ， 行 号 都 会 进行 计数 。 具 体 来 说 有 
以 下 三 处 : 


76: <INITIAL>\n {increment line number ();} 


92: <COMMENT>\n { 


DBE meremene nlm me 

94: BEGIN INITIAL; 

95: } 
104: <STRING LITERAL STATE>\n { 
Ss craddnst re mel iiterall oo nu 
DER Hae nee nem el nl en 
OE 


这 里 进行 计数 的 行 号 保存 在 CRB_Interpreter 的 current line_ 


补充 知识 ”静态 变量 的 许可 范围 
如 上 文 所 写 ， 在 词法 分 析 中 ， 正 在 读 入 的 字符 串 会 保存 在 string.c 的 st_string 

literal buffer 中 。 在 编译 时 ， 当 前 的 编译 器 会 保存 在 util.c 的 st_current 

yytext 等 全 局 变量 。 

区 用 如 此 多 的 静态 变量 ， 首 当 其 冲 会 遇 到 的 就 是 多 线程 问题 。 

当下 多 线程 的 程序 已 经 很 普及 了 ， 静 态 变量 可 以 在 多 线程 之 间 共 享 ， 

如 果 同 时 进行 编译 的 话 可 能 会 引发 问题 。 

不 过 一 般 来 说 ， 编 译 过 程 都 是 一 下 子 就 能 结束 的 ， 因 此 在 这 样 短 的 时 间 内 通过 加 

个 全 局 锁 的 方式 就 可 以 解决 问题 了 。 正 因为 有 这 样 既 简单 又 实用 的 方法 ，crowbar 才 放 

心地 允许 在 编译 过 程 中 使 用 静态 变量 。 而 静态 变量 仅 在 编译 过 程 中 被 使 用 ， 一 旦 程序 
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interpreter 中 。 而 在 yacc/lex 中 ， 还 会 使 
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此 多 个 线程 
































































































































































































































在 后 面 写 到 的 Diksam 
中 ， 具 备 与 C 语 
的 #include 相对 
的 功能 require,， 

样 由 于 解析 器 不 能 进 
递归 ， 会 在 解析 完 一 
文件 后 ， 才 开始 解 
被 require 的 文件 。 


















































妾 请 病 避 加 叫 
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始 运 行 后 就 无 法 使 用 体 来 说 ， 由 于 MEM 模块 会 静态 地 保存 内 存 块 链 表 ， 这 原本 
就 是 以 调试 为 的 创建 的 链表 ， 可 以 随时 删除 ， 而 由 于 MEM 模块 位 于 系统 最 底 
此 可 以 对 MEM malloc() 的 运行 进行 加 锁 处 理 。 
吏 用 静态 变量 还 会 造成 另 一 个 问题 ， 就 是 编译 器 无 ; 
函数 都 书写 在 独立 文件 中 ,在 C 语言 中 理论 上 只 需要 用 #include 就 能 很 简单 地 把 
功能 包含 进来 。 但 是 实际 应 用 中 就 会 发 现 ， 使 用 #include 包括 进来 的 独立 文件 ， 在 
译 过 程 中 如 果 再 开始 一 个 解析 器 ， 之 前 的 静态 变量 就 会 被 覆盖 。 

标准 版 的 yacc/lex， 由 于 使 用 了 yytext 等 全 局 变量 ， 因 此 也 无 法 支持 多 线程 或 使 用 
归 。 不 过 bison 有 单独 的 扩展 可 以 让 其 支持 多 线程 。* 


3.3.3 | 分 析 树 的 构建 一 一 crowbar.y 与 create.c 


crowbar 中 yacc 的 定义 文件 为 crowbary。 从 构成 来 说 ， 与 计算 器 版 的 mycalc.y 
没有 什么 变化 。 

但 是 在 计算 器 中 ， 
构建 分 析 树 时 进行 的 。 

比如 一 个 加 法 算式 (如 10 + a ) 会 按照 以 下 的 规则 构建 : 



























































































































































递归 运行 。 比 如 crowbar 中 的 
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归 约 是 在 实际 进行 计算 时 才 进 行 的， 而 crowbar.y 则 是 在 








[en 


additi ve expressionm 








( 中 间 省 略 ) 
| additive _ expression ADD multiplicative expression 
{ 
Serpbierneated nary ealon(ADD PRes TON 
} 





这 里 的 additive expression 对 应 mycalc.y 中 的 expression, multi- 


plicative expression 对 应 term。 


在 动作 中 ，crb create binary expression() 被 调用 ， 其 实际 运行 
代码 在 create.c 中 。 这 个 函数 负责 常量 折 县 0 3.4 节 )， 所 以 稍微 有 些 复杂 ， 
将 这 部 分 以 外 的 核心 代码 精简 一 下 ， 可 以 看 到 这 个 函数 的 主要 逻辑 如 下 所 示 : 


Peep esSmoue. 


Easy 





nb ome eel “laevis Dbsoheeelen Li 


{ 
PDEesSHon exp 
exp = eollocRexores onl(opPernarom 
Ep So Ins ‘eps luon, Mere = laneep 
SE I on ev (ephemera 
本 
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Eeturn ev 


crb alloc expression() 将 开辟 一 个 存放 Expression 类 型 结构 体 的 
内 存 空 间 ， 并 将 其 返回 。Expression 类 型 在 crowbar.h 中 的 定义 如 下 所 示 : 


struct Expression tag { 





ExpressionType type; 表示 表达 式 的 类 别 


IE iniosTE 





union { 用 联合 体 保 存 不 同 种 类 对 应 的 值 


CRB Boolean 

Tmnt 

double 

ema 

人 am 

AssignExpression 

BinaryExpression 

Expression 

FunctionCallExpression 
Dw 


13 


Booleang male 


nt a 


eareesweanuer 


SEOmSEZaen 


*identifier; 


assign expression; 


binary expression; 


*minus expression; 


FuneE iondealllexoress leony 


这 个 结构 体 在 分 析 树 中 用 来 表示 “表达 式 ” 的 类 型 。 与 CRB_Value 一 样 ， 


用 枚 举 类 型 的 ExpressionType 表示 表达 式 的 





应 的 值 。 


ExpressionType 具体 定义 如 下 : 


typedef enum { 
BOOLEAN EXPRESSION = 1, 
INT EXPRESSION, 
DOUBLE EXPRESSION, 
STRING EXPRESSION, 
IDENTIFIER EXPRESSION, 
ASSIGN EXPRESSION, 
ADD EXPRESSION, 
SUB_ EXPRESSION, 
MUL EXPRESSION, 
DIV_ EXPRESSION, 
MOD EXPRESSION, 
EQ EXPRESSION, 
NE EXPRESSION, 
GT EXPRESSION, 
GE EXPRESSION, 
T EXPRESSION, 
LE EXPRESSION, 
LOGICAL AND EXPRESSION, 











上 





/* 
/* 
/* 
/* 
/* 
We 
Vs 
/* 
/* 
We 
/* 
/* 
/* 
/* 
/* 
/* 
We 
/* 


涨 fi lm li 


性 和 球 球 适 
lm 
bE 





2 
赋值 表达 式 
加 法 表达 式 
减法 表达 式 
乘法 表达 式 
除法 表达 式 
三 三 */ 
IE */ 
Si 
Sx 
0 
<= */ 


&& xx/ 








类 型 ， 用 联合 体 保 存 各 种 类 型 对 


光 
Se 


7 
7 
人 
Wd 
7% 
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10+a+b 的 分 析 树 
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LOGICAL OR EXPRESSION, pe | 2 

MINUS EXPRESSION, /* 单 目 取 负 */ 
FUNCTION CALIL EXPRESSION， /* 函数 调用 表达 式 */ 
NULL EXPRESSION, Wr/ 


EXPRESSION TYPE COUNT PLUS 1 
} ExpressionType; 





这 其 中 从 ADD EXPRESSION 到 LOGICAL OR EXPRESSION, 都 在 使 用 联合 


体 的 binary expression 成 员 。 





binary_expression 的 类 型 是 BinaryExpression， 其 定义 如 下 所 示 : 


typedef struct { 
Expression *left; 
Exonressnone ibe 
} BinaryExpression; 





crb create binary expression() 最 终 返 回 这 样 构建 出 的 Expression 的 
指针 ， 并 在 crowbary 中 将 其 赋值 给 $$。 

$$ = crb create binary expression (ADD EXPRESSION, $1, $3); 

比如 10 + a + b 这样 的 语句 ， 按 上 面 的 处 理 就 会 构建 出 如 图 3-4 的 分 析 树 。 


那么 ， 接 下 来 是 crb alloc expression() 函数 ， 这 个 函数 只 是 简单 地 
用 crb malloc() 开辟 Expression 的 空间 ， 并 且 将 type 连同 刚 被 设置 的 行 
号 一 起 返回 。 














mi 























crb alloc expression (ExpressionType type) 


{ 
Expression *exp; 
exp = ceronmaellos (seor (hres ne 
exp=SEYyDe = EYDeY 


Sx mcmnumoer ong eunealser een SeunenGnlnemn moe 


return exp; 
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在 分 析 树 中 ， 不单 是 表达 式 , 语句 (statement ) 也 很 重要 。 构建 语句 的 思 


与 表达 式 基 本 是 一 样 的 ， 关 联 的 结构 体 定义 从 crowbar.h 中 摘录 如 下 : 


struct Statement tag { 


StatementType eve 

I line number; 

OIC 
Expression *expression s; /* 表达 式 语句 */ 
GlobalStatement global s; J esa Ya) 
IfStatement Ep 可 有 
WhileStatement while s; /* while 语句 */ 
ForStatement Fons 人 里 名 过/ 
ReturnStatement return s; Ve en el) 


) mp 


pa 
随便 举 一 个 联合 体 的 例子 ， 比 如 Whilestatement 的 定义 如 下 所 示 : 


typedef struct { 
Expression *condition; /* 条 件 表达 式 */ 
Block *block; /* 可 执行 块 */ 
} Whilestatement; 


Block 在 3.3.1 节 中 已 经 出 现 过 一 次 ， 即 一 段 用 花 括号 包 于 的 代码 段 类 型 。 
StatementType 的 一 览 表 如 下 所 示 : 





typedef enum { 
EXPRESSION STATEMENT = 1, 
GLOBAL STATEMENT, 
IF STATEMENT, 
WHILE STATEMENT, 
FOR STATEMENT, 
RETURN STATEMENT, 
BREAK STATEMENT, 
CONTINUE STATEMENT, 
STATEMENT TYPE COUNT PLUS 1 
} StatementType; 

















BREAK STATEMENT 和 CONTINUE STATEMENT 现 阶段 都 没有 信息 需要 保存 


( 如 果 想 像 Java 那样 支持 标签 或 break 语句 的 话 就 需要 保存 了 )， 因 此 没有 对 应 
的 联合 体 成 员 。 
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字符 串 的 加 法 不 会 做 折 
又 处 理 。 确 实 代 码 中 有 
时 候 需 要 有 长 文本 信 
息 ， 但 是 按 当前 版 本 的 
处 理 方式 ， 连 接 前 的 字 
符 串 是 无 法 被 释放 的 ， 
也 就 是 说 其 实 这 里 是 我 
偷懒 了 。 





























ISO-C99 规范 中 ，auto 
的 数组 也 可 以 不 是 常量 。 





可 能 很 多 读者 会 认为 显 
示 错 误 信 息 只 有 英语 就 
足够 了 ， 不 过 对 于 初级 
户 来 说 ， 英 文 的 错误 
信息 可 能 有 点 难以 理解 
吧 。 更 重要 的 理由 是 : 
我 觉得 自己 的 英语 水 平 
还 不 够 。 







































































不 过 一 般 公 司 对 于 数据 























的 管理 都 是 比较 严格 
的 ， 可 能 没有 办 法 用 U 
盘 携带 数据 吧 。 
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常量 折 笃 
比如 
i 
这 样 一 个 表达 式 ， 其 实 与 


a 0 
是 同 值 的 。 诸 如 这 种 纯 常 量 构成 的 表达 式 或 部 分 表达 式 ， 在 编译 时 提前 被 计 
算出 来 的 处 理 方式 叫 作 常 量 折 又 ( constant folding )。 由 于 编译 时 这 部 分 计算 就 已 
经 完成 了 ， 所 以 能 有 效 地 提高 运行 速度 。 
crowbar 中 也 部 分 引入 了 常量 折 鲜 的 处 理 。 具 体 来 说 ， 在 进行 整数 型 与 实数 
型 相关 的 四 则 运算 或 者 单 日 取 人 负 时 会 进行 常量 折 闭 *。 这 部 分 代码 本 书 不 会 进行 
详细 说 明 ， 请 参考 create.c 的 crb create binary expression() 和 crp_ 









































create minus expression(), 

crowbar 中 的 常量 折 著 其 实 可 以 归 入 所 谓 程 序 最 优化 ( optimization ) 的 范畴 ， 
在 语言 的 制作 阶段 考虑 最 优化 本 来 为 时 尚 早 ， 但 是 由 于 crowbar 的 目标 是 类 似 C 
的 语言 ， 这 种 优化 在 部 分 场景 中 是 必须 的 。 比 如 C 语言 在 一 些 特定 地 方 只 能 写 常 
量 表 达 式 〈static 变量 的 初始 化 或 数组 的 大 小 指定 等 * )， 这 些 地 方 需要 支持 党 
量 折 登 的 处 理 。 

程序 优化 是 指 通过 不 断 调 整 程序 以 提高 代码 的 运行 速度 ， 但 是 调整 的 结果 
到 底 是 不 是 “最 优 ” 其 实 不 好 评判 ， 因 此 有 些 人 提出 “最 优化 ”这 个 用 词 是 不 恰 
当 的 。 





























错误 信息 


错误 信息 考虑 到 需要 支持 多 语言 *， 所 以 一 般 尽 可 能 避免 硬 编码 出 现在 代码 
中 ， 最 好 以 提供 外 部 文件 的 方式 实现 。 但 是 在 开始 设计 crowbar 这 样 的 脚本 语言 
时 ， 我 非常 希望 crowbar 只 通过 一 个 可 执行 文件 就 能 运行 。 比 如 我 想 去 别 的 地 方 
做 一 些 文字 处 理工 作 ， 那 么 只 需要 把 crowbar 的 唯一 一 个 可 执行 文件 找 入 UU 盘 就 
可 以 拿 去 用 了 。* 




















图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 : [ 









































090 | 第 3 章 制作 无 类 型 语言 crowbar 
因此 crowbar 还 是 选择 将 错误 信息 硬 编码 在 error_message.c 的 源 文件 中 ， 参 
看 代码 清单 3-5。 
代码 清单 3-5 MessageFormat crb compile error message format[] = { 


error_mMessage.c 


代码 清单 3-6 
crowbar.h 的 错误 信息 


枚 举 型 定义 





eh 








{ ny 

"($ (token) Nie 法 错误 ) " } ， 
" 错误 的 字符 ($ (baqd_char))"}， 
" 函数 名 重复 ($ (name) ) " } ， 
"dummy"}, 








}; 
= 


MessageFormat crb runtime error message format [] 


























{ "dummy"}, 

{“" 找 不 到 变量 ($ (n BW 

{ " 找 不 到 函数 ($ (name) my; 

{" 传递 的 参 0 数 。"}， 
{ " 传递 的 参数 少 于 函数 所 要 求 的 参数 。"}， 
{ "条 件 语句 类 型 必须 为 boolean 型 "}， 

{ "dummy"}, 

















通过 这 种 方式 ， 将 来 如 果 要 文 持 多 语言 的 话 ， 
来 实现 。 而 设置 crb Compile error _ message 与 crb runtime 
message 这 两 个 数组 ， 是 为 了 将 编译 时 的 错误 信息 与 运行 时 的 错误 信 
来 。 这 些 数组 的 索引 ， 与 crowbarh 中 对 应 的 枚 举 型 的 值 是 一 致 的 。 















































可 以 简单 地 通过 修改 外 部 文件 


erLror 


息 区 分 开 








typedef enum { 
PARSE ERR in 
CHARACTER INVALID ERR, 
FUNCTION MULTIPLE DEFINE ERR, 
COMPILE ERROR COUNT PLUS 1 

} CompileError; 





typedef enum { 
VARIABLE NOT FOUND ERR 
FUNCTION NOT FOUND ERR, 
ARGUMENT TOO MANY_ ERR, 


1, 





RUNTIME ERROR COUNT PLUS 1 
} RuntimeError; 

















代码 清单 3-5 中 的 错误 信息 ， 包 含 了 
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一 个 $ (token) 这 样 的 字符 串 ， 
误 信 息 中 的 可 变 部 分 。 比 如 找 不 到 一 个 名 为 hoge 的 变量 时 ， 如 果 能 报 4 


这 是 错 
1“ 找 不 























运行 出 错 。 如 
是 编译 出 错 ， 则 调 


ER hee 


























ror()o 
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到 变量 (hoge)”， 要 比 只 报 “ 找 不 到 变量 ”对 用 户 更 加 友好 。 
为 了 实现 错误 信息 中 可 以 包含 变量 ， 显示 错误 信息 时 会 


数 crb runtime error ()* 





调用 下 面 的 孙 


crb runtime error (expr->line number, /* 行 号 */ 
VARIABLE NOT FOUND _ERR， /* 枚 举 错 误 信 息 类 别 */ 
STRING MESSAGE ARGUMENT，/* 可 变 部 分 的 类 型 */ 

/* 可 变 部 分 的 标识 符 */ 

expr->u.identifier，/* 所 要 显示 的 值 */ 

MESSAGE ARGUMENT END) ; 








"name", 




















第 一 个 参数 是 行 号 (在 create.c 中 Expression 结构 体 中 设 定 )， 下 一 个 参 























数 是 错误 类 别 ( crowbar.h 中 的 RuntimeError 枚 举 型 )， 之 后 的 三 i 
组 ， 对 应 错误 信息 的 可 变 部 分 。STRING MESSAGE RARGUMENT 代表 信息 类 型 
(相当 于 printf () 中 使 用 的 ss )，name 即 错误 信息 中 的 $ (name)，expr->u. 





identifier 则 表示 可 变 部 分 要 显示 的 字符 串 。 由 于 可 变 部 分 可 以 有 多 个 ， 
此 crb runtime error 为 一 个 变 长 参数 ， 所 以 可 以 用 MESSAGE RARGUMENT _ 
END 表示 参数 输入 结 
当前 版 本 无 论 是 编译 错误 还 是 运行 错误 ， 显 示 错 误 信 息 后 都 会 立即 调 
用 exit () 终止 程序 。 这 样 的 处 理 其 实 还 远 远 不 够 ， 如果 用 于 扩展 应 用 程序 的 话 
这 样 做 更 是 致命 的 ， 因 此 应 当 参 考 9.2.1 节 加 入 异常 处 理 机 制 。 


补充 知识 。 关于 crowbar 中 使 用 的 枚 举 型 定义 
意 将 第 


比如 在 代码 清单 3-6 中 的 CompileError 类 型 ， 我 特意 将 第 一 个 元 素 PARSE_ 
ERR 设 而 最 后 一 个 元 素 引 入 了 名 为 COMPILE ERROR COUNT PLUS 1 的 可 变 
元 素 。 


typedef enum { 
PARSE ERR = 1, 















































汽 1， 





特意 设置 为 1 
CHARACTER INVALID ERR, 


EUNCTITONIMULTIEPEESDE INEDERR, 
COMPILE ERROR COUNT PLUS 1 





} CompileError; 

类 似 这 样 的 处 理 方式 不 只 

型 也 采用 同样 的 构造 。 

特意 这 样 设置 的 理 下 面 几 个 。 

1. 假如 忘记 进行 初始 化 时 ， 变 量 中 被 置 入 0 的 概率 是 非常 高 的 ， 那 么 枚 举 类 型 如 
果 从 1 开始 的 话 ， 可 以 地 发 现 异常 状态 。 




















比如 显 











CompileError 类 型 。 示 Expression 类 



































别 的 ExpressionType 类 
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2. 有 了 COMPILE ERROR _ COUNT PLUS 1 这 个 可 变 元 素 ， 就 可 以 借助 其 遍历 所 


枚 举 元 素 ， 并 在 后 续 程 序 中 利用 这 一 特性 进行 更 丰富 的 处 理 。 
当然 实际 使 用 时 ， 我 发 现 这 两 处 设置 似乎 也 不 是 特别 有 效 。 
另外 在 错误 信息 中 ， 错 误 信 息 数 组 的 第 一 个 和 最 后 一 个 元 素 都 是 summy， 这 是 为 

了 防止 在 以 后 修改 时 只 改 了 crowbar.h 中 的 枚 举 类 型 ， 而 忘记 修改 error_message.c 中 

的 对 应 错误 信息 ， 这 样 设置 的 话 能 在 一 定 程度 上 自动 检测 这 种 遗漏 ( 请 参考 error.c 中 

的 self_check() 函数 )。 


















































































































































































































































MessageFormat crb compile error message format[] = { 





{| nn dummy nn } 


{ nn dummy nn } 


ba 


Sm 


运行 一 一 execute.c 


crowbar 程序 的 运行 是 从 CRB_interpret () 开始 的 ， 其 函数 实现 如 下 : 


void 

CREBICerDEeD (CCRCter rete ne Eee 
terrLeter -eeeuGenstorade MVMopenastorade(o 
enmpadons Edm (meen eee 
Cblexecueenstatemnenem ne Nn ur saemnem ls 





第 一 行 准备 了 运行 时 要 用 的 MEM_Storage， 第 二 行 的 函数 crb_adq_stq_ 
fp() 注册 了 三 个 内 部 全 局 变量 STDIN、STDOUT 和 STDERR， 然 后 通过 crb_ 
execute statement list() 将 解释 器 中 保存 的 语句 链表 按 顺序 执行 。 

那么 我 们 就 来 看 一 看 crb_execute statement list() 函数 (代码 清单 

















3-7) 
a i 
代码 清单 3-7 StatementResult 
crb_execute_state— crb execute statement list(CRB Interpreter *inter, LocalEnvironment 


ment_list() *env, StatementList *]list) 


{ 


StatementList *pos; 
StatementResult result; 


result.type = NORMAL STATEMENT RESULT; 
for (pos = list; pos; pos = pos->next) { 
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代码 清单 3-8 
execute_statement() 
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result = execute statement (inter, env, pos->statement),; 
if (result.type != NORMAL STATEMENT RESULT) 
goto FUNC END; 





FUNC_ END: 
return result,; 








即 按照 链表 的 顺序 ， 调 用 execute _ statement () 。 
execute statement () 则 会 根据 不 同 的 Statement 类 型 执行 不 同 的 处 


理 (代码 清单 3-8 )。 








static StatementResult 
execute statement (CRB Interpreter *inter, LocalEnvironment *enyv, 
Statement *statement) 


StatementResult result,; 


result.type = NORMAL STATEMENT RESULT; 





switch (statement->type) { 
Case EXPRESSION STATEMENT: 
crb eval expression(inter, env, statement->u.expression s); 





break; 

Case GLOBAL STATEMENT: 
result = execute global statement (inter, env, statement); 
break; 

case IF STATEMENT: 
result = execute if statement (inter, env, statement),; 
break; 

case WHILE STATEMENT: 
result = execute while statement (inter, env, statement); 





break; 


Case STATEMENT TYPE COUNT PLUS 1: /* FALLTHRU */ 
default: 
DBG panic(("bad case...%d'", statement->type)); 





return result,; 








execute statement () 的 第 二 个 参数 需要 传递 LocalEnvironment 类 型 





结构 体 (指向 其 的 指针 )。 这 个 结构 体 保存 了 当前 运行 中 的 函数 的 局 部 变量 ， 
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如 果 函 数 还 没有 运行 ， 则 传递 NULL。 

execute statement () 内 部 采用 了 switch case 来 区 分 条 件 处 理 。 如 
果 将 其 调用 的 函数 全 部 进行 分 析 的 话 有 点 浪费 篇 由 了 了， 这 里 以 while 语句 调用 
的 execute_while_statement () 为 代表 进行 说 明 (代码 清单 3-9， 移 除了 错 
误 检 查 等 与 核心 功能 无 关 的 代码 ) : 











化 TD 洼 前 ao 

代码 清单 3-9 static StatementResult 

J execute while statement (CRB Interpreter *inter, LocalEnvironment 
ment 一 se 


*env, Statement *statement) 
StatementResult result; 
CRB Value cond; 


result.type = NORMAL STATEMENT RESULT; 
for (;;) { /* 首先 是 一 个 无 限 循环 */ 
/* 通过 条 件 语句 判别 */ 
cond = crb eval expression(inter, env, statement->u.while 
s.condition); 
/* 条 件 为 真 则 结束 循环 */ 
if (!cond.u.boolean Value) 
break; 


























/* 条 件 不 为 真 则 执行 内 部 语句 */ 


result = crb _ execute _ statement list(inter, env, 





statement->u.while s.block 
->statement list); 


/* break，continue，return 的 处 理 */ 




















if (result.type == RETURN STATEMENT RESULT) { 
break; 

} else if (result.type == BREAK STATEMENT RESULT) { 
result.type = NORMAL STATEMENT RESULT; 
break; 


return result; 











if 语句 或 while 语句 都 会 包含 一 些 内 部 的 语句 ， 这 些 内 部 语句 被 称 为 舱 套 
( nest )。 在 crowbar 中 ， 如 果 存 在 能 套 ， 则 不 会 进行 递归 ， 而 是 转向 运行 人 艇 套 内 的 
语句 。 


事实 上 , 实现 上 面 的 机 制 主要 用 到 的 是 break、continue、return 等 , 从 
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Ruby 的 设计 
了 这 种 必 杀 技 。 





ph 也 使 
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某 种 程度 上 来 说 用 goto 实现 结构 控制 反而 非常 麻烦 。 
break、continue、return 等 出 现时 , 必须 从 递归 的 最 深 处 强制 返回 上 层 。 
break 或 continue 的 作用 是 从 最 内 层 的 循环 中 跳出 ， 当 然 break 

或 continue 很 可 能 会 出 现在 很 多 层 航 套 的 if 语句 中 ， 而 无 论 其 出 现在 哪里 ， 

正在 进行 的 递归 都 必须 从 最 底层 一 次 性 返回 ， 这 是 不 会 改变 的 。 

为 了 实现 这 一 点 , 我 们 有 一 个 “ 必 杀 技 ” 可 以 使 用 一 一 setjmp ()/Longjmp ()* 
个 必 杀 技 还 被 应 用 到 异常 处 理 机 制 中 ， 因 此 在 crowbar 中 ,返回 值 与 结束 状态 

















pi 
execute_ statement () 以 及 内 部 被 调用 的 函数 群 execute XXX state- 
ment () ， 返 回 值 均 为 StatementResult 的 结构 体 。StatementResult 的 定 
ne 
typedef enum { 
NORMAL STATEMENT RESULT = 1, 














RETURN STATEMENT RESULT, 
BREAK STATEMENT RESULT, 
CONTINUE STATEMENT RESULT, 


STATEMENT RESUL YPE COUNT PLUS 1 
} StatementResultType; 





























typedef struct { 
StaremeneResv lien ev es 
| 
GREENVaUE ein ue 


} map 


} StatementResult; 
通常 ，type 会 返回 一 个 装 入 NORMAL STATEMENT RESULT 的 StatementResult， 
而 当 执 行 return、break、continue 时 ， 则 分 别 在 RETURN STATEMENT_ 
RESULT、 BREAK STATEMENT RESULT 、CONTINUE STATEMENT RESULT 装 人 对 
应 的 StatementResult 并 返回 。 此 外 ， 在 代码 清单 3-9 的 execute_while 
statement () 等 中 会 根据 执行 语句 的 返回 值 不 同 而 所 有 不 同 ， 如 果 是 BREAK_ 
STRATEMENT _ RESULT 或 RETURN STATEMENT RESULT 则 会 中 汤 循 环 ， 而 如 果 




















是 continue 的 话 ， crb execute statement list() 中 的 运行 。 
如 果 是 return， 那 么 不 只 要 中 断 孔 数 的 运行 ， 还 要 携 囊 其 返回 值 返回 ， 此 
时 会 将 返回 值 放 入 StatementResult 的 return value 中 。 
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3.3.7 | 表达 式 求 值 一 一 eval.c 


表达 式 求 值 在 eval.c 中 进行 。 
表达 式 求 值 ， 是 在 调用 分 析 树 进行 递归 下 降 分 析 后 ， 通 过 对 分 析 结 果 进 行 
运算 来 实现 的 。 其 运算 结果 会 装 入 CRB_Value 结构 体 中 并 返回 。 关 于 CRB_ 
Value 的 定义 请 参考 3.3.8 节 。 
语句 的 运行 是 通过 execute_statement () 中 的 switch case 判断 分 支 
条 件 来 实现 的 ， 而 表达 式 求 值 则 是 通过 eval_expression() 来 执行 的 (代码 
清单 3-10 )。 


代码 清单 3-10 static CRB Value 
eval_expression() 


















































eval expression(CRB Interpreter *inter, LocalEnvironment *enyv, 
Expression *expr) 


CRB Value V; 
switch (expr->type) { 
case BOOLEAN EXPRESSION: /* 布尔 型 变量 */ 
V = eval boolean expression(expr->u.boolean value); 
break; 
case INT EXPRESSION: ”/* 整数 型 变量 */ 
V = eval int expression(expr->u.int value); 
break; 
case DOUBLE EXPRESSION: /* 实数 型 变量 */ 
V = eval double expression(expr->u.double value); 
break; 
case STRING EXPRESSION: /* 字符 串 变 量 */ 
V = eval string expression(inter, expr->u.string value); 





break; 
case IDENTIFIER EXPRESSION: /* 变量 */ 
V = eval identifier expression(inter, env, expr); 





break; 
case ASSIGN EXPRESSION: /* 赋值 表达 式 */ 
V = eval assign expression(inter, env, 





expr->u.assign expression.variable, 
expr->u.assign expression.operand); 














break; 
/* 大 部 分 二 元 运算 符 都 整合 在 eval binary_ expression() 中 */ 
case ADD EXPRESSION: /* FALLTHRU */ 
Case SUB EXPRESSION: /* FALLTHRU */ 
case MUL EXPRESSION: /* FALLTHRU */ 
case DIV _ EXPRESSION: /* FALLTHRU */ 
case MOD EXPRESSION: /* FALLTHRU */ 
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Case EQ EXPRESSION: /* FALLTHRU */ 
case NE EXPRESSION: /* FALLTHRU */ 
case GT EXPRESSION: /* FALLTHRU */ 
Case GE EXPRESSION: /* FALLTHRU */ 
Case LT EXPRESSION: /* FALLTHRU */ 
case LE EXPRESSION: 
V = Crb eval binary expression(inter, enyv, 
































XDrF- StYDe 


break; 
/* 逻辑 与 ， 逻 辑 或 */ 
case LOGICAL AND EXPRESSION:/* FALLTHRU */ 
Case LOGICAL OR EXPRESSION: 
V = eval logical and or expression (inter, env, expr->type, 














break; 
case MINUS EXPRESSION: /* 单 目 取 负 运算 符 */ 
































break; 
case FUNCTION CALL EXPRESSION: /* 调用 函数 */ 
Vs éval function call expression (inter, env, expr); 




















break; 
case NULL EXPRESSION: /* 常数 null */ 
Vv = eval null expression(); 








break; 
Case EXPRESSION TYPE COUNT PLUS 1: /* FALLTHRU */ 
default: 

DBG panic(("bad case. type..%d\n", expr->type)); 
return v; 





expr->u.binary expression.left, 
expr->u.binary expression.right); 


expr->u.binary expression.left, 
expr->u.binary expression.right); 


V = crb eval minus expression(inter, env, expr->u.minus expression); 








比如 Expression 结构 体 的 type 是 INT_ EXPRESSION( 整数 的 常数 ) 时 会 
调用 eval int expression()， 其 实现 如 下 所 示 。 最 后 在 CRB_Value 结构 





体 中 装 入 值 并 返回 。 


Seatae eeRenvalue 
eet ee Se mn te 


{ 
CRB Value wR 
Vv.type = CRB INT VALUE; 
le ne 
Te MY 

} 
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再 比如 分 析 树 的 加 法 节点 ( ADD_EXPRESSION ) 对 于 其 左右 项 目 会 分 别 调 
用 eval expression()， 然后 对 其 值 进行 加 法 运算 ,最 后 装 入 CRB_ Value 并 
返回 。 
上 面 看 起 来 只 有 很 简单 的 一 句 话 ， 其 实 对 于 加 法 运算 来 说 ， 左 右 项 目的 组 合 
有 以 下 几 种 情况 : 
1. 左边 是 整数 ， 右 边 也 是 整数 ( 整数 相 加 ， 返 回 整数 ) 
2. 左边 是 实数 ， 右 边 也 是 实数 ( 实数 相 加 ， 返 回 实数 ) 
3. 左边 是 整数 ， 右 边 是 实数 ( 左边 转换 为 实数 ， 最 后 返回 实数 ) 
4. 左边 是 实数 ， 右 边 是 整数 ( 右边 转换 为 实数 ， 最 后 返回 实数 ) 
5. 左边 是 字符 串 ， 右边 ss 字符 串 ( 返回 连接 后 的 字符 串 ) 
6. 左边 是 字符 串 ， 右 边 是 整数 ( 右边 转换 为 字符 串 ， 返 回 连接 后 的 字符 串 ) 
7. 左边 是 字符 串 ， ee 右边 转换 为 字符 串 ， 返 回 连接 后 的 字符 串 ) 
8. 左边 是 字符 串 ， 右 边 是 布尔 型 ( 右边 转换 为 内 容 是 true 或 false 的 字符 串 ， 返 牟 
在 C 语 言 中 做 除法 运算 ， 连接 后 的 字符 串 ) 
整数 除 以 整数 商 仍然 9. 左边 是 字符 串 ， 右 边 是 null ( 右边 转换 为 内 容 是 nul1 的 字符 串 ， 返 回 连接 后 的 字符 串 
为 整数 。 而 对 于 无 类 型 
语言 来 说 ， 这 种 处 理 方 


式 似 乎 不 够 好 ( crow- 
bar 中 商 也 为 整数 )。 





对 于 函数 


的 参数 来 说 ， 























查 














没有 变量 类 型 


， 因 此 如 果 向 一 个 入 








传 入 整数 值 ， 








非常 困 





型 检 


参数 应 为 实数 的 函数 


Debug 时 
难 ， 并 且 








容易 产生 BUG? 。 


代码 清单 3- 


11 


eval_binary_ex-— 





pression() 


eh 


用 


单 3-11 )， 实 际 上 这 个 


处 


这 其 中 调用 的 子 函 数 eval_binary _ int() 

















对 于 1~4 项 来 说 ， 不 只 是 加 法 ,减法 和 乘法 也 都 必须 进行 这 样 的 类 型 转换 *， 
此 单独 将 评估 加 法 表达 式 的 函数 独立 出 来 并 不 是 好 的 处 理 方式 。crowbar 使 
函数 对 所 有 的 二 元 运算 符 进行 评估 (代码 清 
函数 中 已 经 将 同 为 整数 、 同 为 实数 的 运算 单独 划分 为 函数 
里 了 ， 但 代码 整体 还 是 很 长 (虽然 有 点 长 不 过 并 不 难 ， 请 读者 尝试 阅读 一 下 )。 
请 参考 代码 清单 3-12。 





eval binary expression () 








‘tt 














CRB Value 


crb eval binary expression(CRB Interpreter *inter, LocalEnvironment 


*env, ExpressionType operator, Expression *left, Expression *right) 


{ 


CRB Value lett. vals 
CRB Value right val; 
CRB Value result; 
left val = eval expression(inter, env, left); 
right val = eval expression(inter, env, right); 
if (left val.type == CRB_INT VALUE 

&& right val.type == CRB INT VALUE) { 


eval binary int (inter, operator, 


left val.u.int value, right val.u.int value, 





&result, left->line number); 
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} else if (left val.type == CRB DOUBLE VALUE 
&& right val.type == CRB _ DOUBLE VALUE) { 
eval binary double(inter, operator, 
left val.u.double value, right val.u.double value, 
&result, left->line number); 


} else if (left val.type == CRB INT VALUE 
&& right val.type == CRB DOUBLE VALUE) { 
left val.u.double value = left val.u.int value; 


eval binary double(inter, operator, 
left val.u.double value, right val.u.double value, 
&result, left->line number); 
} else if (left val.type == CRB DOUBLE VALUE 
&& right val.type == CRB INT VALUE) { 
right val.u.double value = right val.u.int value; 
eval binary double (inter, operator, 
left val.u.double value, right val.u.double value, 
&result, left->line number); 
} else if (left val.type == CRB BOOLEAN VALUE 
&& right val.type == CRB BOOLEAN VALUE) { 
result.type = CRB BOOLEAN VALUE; 
result.u.boolean Value 
= eval binary boolean (inter, operator, 
left val.u.boolean value, 
right val.u.boolean value, 
left->line number); 
} else if (left val.type == CRB STRING VALUE 
&& operator == ADD EXPRESSION) { 
char buf[LINE BUF SIZE]; 
CRB. String *right str; 


if (right val.type == CRB INT VALUE) { 

sprintf (buf, "%d", right val.u.int value); 

right str = crb create crowbar string(inter, MEM strdup (buf)); 
} else if (right val.type == CRB DOUBLE VALUE) { 

sprintf (buf, "%f", right val.u.double value); 

right str = crb create crowbar string(inter, MEM strdup (buf)); 
} else if (right val.type == CRB BOOLEAN VALUE) { 

if (right val.u.boolean value) { 

right str = crb create crowbar string(inter, 
MEM strdup ("true")); 





} else { 
right str = crb create crowbar string(inter, 
MEM strdup("false")); 





} 
} else if (right val.type == CRB STRING VALUE) { 
right str = right val.u.string value; 
} else if (right val.type == CRB NATIVE POINTER VALUE) { 
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代码 清单 3-12 
eval_binary_int() 








0 . 





Sprintf (buf; vi(SS%D)"; 
right val.u.native pointer.info->name, 
right val.u.native pointer.pointer); 
right str = crb create crowbar string(inter, MEM strdup (buf)); 
} else if (right val.type == CRB NULL VALUE) { 
right str = crb create crowbar string(inter, MEM strdup ("null")); 
} 
result.type = CRB STRING _ VALUE; 
result.u.string value = chain string(inter, 
left val.u.string value, 


right str); 
} else if (left val.type == CRB_ STRING VALUE 
&& right val.type == CRB STRING VALUE) { 


result.type = CRB _ BOOLEAN VALUE; 
result.u.boolean value 
= eval compare string(operator, &left val, &right val, 
left->line number); 
} else if (left val.type == CRB NULL VALUE 
|| right val.type == CRB _ NULL VALUE) { 
result.type = CRB BOOLEAN VALUE; 
result.u.boolean Value 
= eval binary null (inter, operator, &left val, &right val, 
left->line number); 





} else { 
char *op_ str = crb get operator string(operator); 
crb runtime error(left->line number, BAD OPERAND TYPE ERR, 
STRING MESSAGE ARGUMENT, "operator", op str, 
MESSAGE ARGUMENT END); 


return result; 











static void 

eval binary int (CRB Interpreter *inter, ExpressionType operator, 
int left, int right,; 
CRB Value *result, int line number) 





if (dkc is math operator(operator)) { 
result->type = CRB_ INT VALUE; 

} else if (dkc is compare operator(operator)) { 
result->type = CRB_ BOOLEAN VALUE; 

} else { 
DBG panic( ("operator..%d\n", operator)); 


switch (operator) { 
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0 





























Case BOOLEAN EXPRESSION: /* FALLTHRU */ 
case INT EXPRESSION: /* FALLTHRU */ 
Case DOUBLE EXPRESSION: /* FALLTHRU */ 
case STRING EXPRESSION: /* FALLTHRU */ 
case IDENTIFIER EXPRESSION: /* FALLTHRU */ 


Case ASSIGN EXPRESSION: 
DBG panic(("bad case...%d'", operator)); 
break; 

Case ADD EXPRESSION: 
result->u.int value 


left + right; 
break; 

Case SUB EXPRESSION: 
result->u.int value 


left 


right; 
break; 

case MUL EXPRESSION: 
result->u.int value 


left * rignht; 
break; 

case DIV EXPRESSION: 
result->u.int value 


left / right; 
break; 
case MOD EXPRESSION: 


result->u.int value 下 全 记 臣 


ov 


right; 





break; 
Case LOGICAL AND EXPRESSION: /* FALLTHRU */ 
Case LOGICAL OR EXPRESSION: 

DBG panic(("bad case...%$d", operator)); 














break; 
Case EQ EXPRESSION: 

result->u.boolean value = left == right; 

break; 
CaSe NE EXPRESSION: 

result->u.boolean Value = left != right; 

break; 
Case GT EXPRESSION: 

result->u.boolean Value = left > right,; 

break; 
Case GE EXPRESSION: 

result->u.boolean value = left >= right; 

break; 
Case LT EXPRESSION: 
result->u.boolean Value = left < right,; 

break; 
Case LE EXPRESSION: 








result->u.boolean Value = left <= right; 
break; 
case MINUS EXPRESSION: /* FALLTHRU */ 
case FUNCTION CALL EXPRESSION: /* FALLTHRU */ 
case NULL EXPRESSION: 




















* 
eal| 
Do 
器 
Fe 
局 

* 
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对 编译 器 进行 优化 的 话 ， 
其 实 可 以 在 编译 阶段 对 
值 的 类 型 进行 判定 。 





























代码 清单 3-13 
eval_function_call_ 
expression() 














Case EXPRESSION TYPE COUNT PLUS 1: /* FALLTHRU */ 











default: 
DBG panic(("bad case...%d", operator)); 
} 
} 
类 似 这 样 ， 在 运行 表达 式 求 值 时 ， 会 进行 值 的 类 型 判定 等 很 多 处 理 ， 这 也 就 




















是 crowbar 这 样 的 无 类 型 语言 运行 速度 慢 的 原因 之 一 *。 


在 评估 其 他 表达 式 时 ， 比 较 重 要 的 是 调用 函数 。 调 用 函数 时 会 执行 eval_ 
function call expression() (代码 清单 3-13 )。 





func 


} 





static CRB Value 


eval function call expression(CRB Interpreter *inter, LocalEnvironment 
*env, Expression *expr) 


CRB Value value; 
FunctionDefinition *func; 


char *identifier = expr->u.function call expression.identifier; 


crb search function(identifier); 
if (func == NULL) { 
crb runtime error(expr->line number, FUNCTION NOT FOUND ERR, 


switch 
Case CROWBAR FUNCTION DEFINITION: 
Value = call crowbar function(inter, env, expr, func); 
break; 


STRING MESSAGE ARGUMENT, "name", identifier, 
MESSAGE ARGUMENT END); 


(func->type) { 








case NATIVE FUNCTION DEFINITION: 
value = call native function(inter, env, expr, func->u.native f.proc); 
break; 

default: 
DBG panic(("bad case..%d\n", func->type)); 


return value; 











个 函数 本 身 只 负责 将 crowbar 中 的 函数 和 C 语言 中 的 函数 (内置 函数 ) 按 


条 件 区 分 处 理 。 





如 果 是 crowbar 中 的 函数 ， 会 调用 call crowbar function() (代码 清 


单 3-14)。 
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static CRB Value 
call crowbar function(CRB Interpreter *inter, LocalEnvironment *enyv, 
Expression *expr, FunctionDefinition *func) 


CRB_ Value value; 


StatementResult result; 
ArgumentList *arg Bb 
ParameterList *param p; 
LocalEnvironment *local env; 









































/* 开辟 空间 用 于 存放 被 调用 函数 的 局 部 变量 */ 


local env = alloc local environment () ; 





























/* 对 参数 进行 评估 ， 并 存放 到 局 部 变量 中 
arg_p 指向 函数 调用 的 实 参 链表 
param_p 指向 函数 定义 的 形 参 链表 */ 

for (arg p = expr->u.function call expression.argument, 





























param p = func->u.crowbar f.parameter; 
arg_p; 
arg p = arg p->next, param p = param p->next) { 
CRB Value arg val; 














if (param p == NULL) { /* param p 被 用 尽 : 说 明 实 参 过 多 */ 
crb runtime error (expr->line number, ARGUMENT TOO MANY ERR, 
MESSAGE ARGUMENT END); 








} 
arg val = eval expression(inter, env, arg p->expression); 
crb adqq local variable(local env, param p->name, &arg val); 


if (param p) { /* param p 剩余 : 说 明 实 参数 量 不 够 */ 
crb runtime error(expr->line number, ARGUMENT TOO FEW_ ERR, 
MESSAGE ARGUMENT END); 








} 

/* 运行 函数 内 部 语句 */ 

result = crb execute statement list(inter, local eny, 
func->u.crowbar f.block 
->statement list); 



































/* 如 果 return 语句 已 经 运行 ， 则 返回 其 返回 值 */ 
if (result.type == RETURN STATEMENT RESULT) { 
value = result.u.return value; 


} else { 
value.type = CRB NULL VALUE; 


} 


dispose local environment (inter, local env); 


return value; 
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crowbar 与 C 语言 一 样 ， 是 局 部 变量 的 生命 周期 ， 在 函数 被 销毁 时 截止 (局 
部 变量 生成 的 时 机 与 C 语言 不 同 ， 是 在 变量 被 赋值 时 生成 的 )。 因 此 在 一 个 函数 
开始 时 ， 需 要 为 这 个 函数 准备 一 个 运行 环境 ， 随 着 赋值 开始 注册 新 生成 的 局 部 变 
量 ， 同 时 在 函数 结束 后 将 其 运行 环境 一 同 废弃 。 按 照 这 个 思路 ， 我 们 为 函数 的 运 
行 环境 准备 了 LocalEnvironment 结构 体 。 

LocalEnvironment 结构 体 的 定义 如 下 : 





























typedef struct { 

IE *variable; /* 保存 局 部 变量 的 链表 */ 

GlobalVariableRef *global variable; /* 根据 global 语句 生成 的 引用 全 局 变量 的 链表 */ 
} LocalEnvironment; 


Variable 是 为 了 保存 全 局 变量 而 使 用 的 结构 体 (参考 3.3.1 节 )。 该 结构 体 
是 通过 链表 构建 的 ， 链 表 内 保存 了 函数 内 的 局 部 变量 。 

函数 的 参数 中 包含 了 所 有 函数 内 要 用 到 的 局 部 变量 ， 通 过 调用 cal1 
crowbar function() 中 评估 的 crb adq local variable() 函数 将 变量 







































































装 入 LocalEnvironment。 

全 局 变量 在 函数 内 被 引用 时 ，crowbar 中 需要 使 用 global 语句 进行 声明 ( 参 
考 3.14 节 ) LocalEnvironment 结构 体 的 global variable 成 员 中 保存 
了 global 语句 声明 的 指向 全 局 变量 的 引用 链表 ， 其 类 型 GlobalVariableRef 的 
定义 如 下 所 示 : 


typedef struct GlobalVatriableRef tag { 
LS *variable; /* 指向 全 局 变量 */ 
SteuetaelLoralvVar la le Gag next, 

} GlobalVariableRef; 


GlobalVariableRef 结构 体 在 global 语句 运行 时 生成 ， 同 时 被 追加 
到 LocalEnvironment 结构 体 中 。 


3.3.8 值 一 一 CRB_Value 


执行 表达 式 求 值 的 函数 eval XXX expression()， 它 的 返回 值 类 型 
为 CRB Value。CRB Value 类 型 的 定义 如 下 : 




















/* 类 型 的 类 别 枚 举 */ 
typedef enum { 
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CRB BOOLEAN VALUE = 1, /* 布尔 型 */ 
CRB_INT VALUE, /* 整数 型 */ 
CRB DOUBLE VALUE, /* 实数 型 */ 
CRB_STRING VALUE, /* 字符 串 型 */ 
CRB_NRTIVE _ POINTER VALUE,  /* 原生 指针 型 */ 
CRB_NULL VALUE /* NULL */ 


} CRB ValueType; 


typedef struct { 
































CRB ValueType type; /* 这 个 成 员 用 于 区 别 类 型 */ 
TS /* 实际 的 值 保 存在 联合 体 中 */ 
CRB_Boolean boolean Value: 
Tn me 
double qeouplicamv ee 
CRES Ee En We ve 
CREENSEI YEPolntEen motu ve Doneern 
Do 


} CRB Value; 


CRB_Value 结构 体 用 于 保存 crowbar 中 的 每 个 值 ， 并 用 枚 举 型 区 别 值 的 类 
型 ， 实 际 的 值 最 终 保存 在 联合 体 中 。 
对 于 无 类 型 语言 处 理 器 来 说 ,通常 都 需要 像 这 样 在 值 中 保存 值 本 身 的 类 型 。 


3.3.9 | 原生 指针 型 


原生 指针 型 的 值 ， 通 过 CRB_Value 结构 体 中 的 联合 体 成 员 CRB_Native- 
Pointer 类 型 体现 出 来 ， 其 定义 如 下 所 示 : 


















































typedef struct { 
CREONaE Ye PommeerlmEe i 
void *pointer; 
} CRB NativePpointer; 


pointer 成 员 是 指向 一 些 内 部 对 象 的 指针 。 比 如 可 以 用 原生 指针 型 来 做 文件 
指针 ， 此 时 指针 实际 会 指向 FILE* 类 型 。 为 了 可 以 容纳 任何 类 型 的 指针 ， 这 里 
特意 设置 为 voidx。 

男 一 个 成 员 info 保存 了 原生 指针 型 的 信息 ， 因 此 原生 指针 型 本 身 就 可 以 获 
得 自己 的 类 型 。 如 果 没 有 info 成 员 只 保存 void* 的 话 ， 当 错误 的 类 型 传递 给 原 
生 指 针 型 时 ， 内 置 函 数 将 失去 类 型 检查 的 方法 ， 引 起 程序 骨 泪 。 作 为 crowbar 的 
解释 器 ， 如 果 还 会 被 crowbar 程序 的 BUG 弄 骨 演 就 有 点 说 不 过 去 了 。 
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代码 清单 3-15 
eval_identifier_ex— 
pression() 














nf 





info 成 员 的 类 型 CRB_NativePointerInfo 的 定义 如 下 所 示 : 


typedef struct { 
char *name; 
} CRB NativePpointerIinfo; 


这 里 的 name 成 员 中 ， 如 果 原 生 指 针 为 文件 指针 时 ， 成 员 值 为 crowbar. 
lang .file 的 字符 串 。 

虽然 经 过 上 面 的 处 理 ， 可 以 对 原生 指针 型 进行 类 型 检查 ， 但 这 还 不 算是 万 
全 之 策 。 比 如 为 FILE* 类 型 时 ， 一 个 地 方 用 fclose() 关闭 了 文件 指针 ， 可 
能 还 会 在 另 一 个 地 方 被 使 用 。 为 了 规避 这 种 情况 ， 原 生 指 针 型 不 应 该 直接 指 
向 FILE*， 而 是 需要 经 过 一 个 第 三 方 对 象 。 不 过 当前 版 本 的 crowbar 对 第 三 方 对 
象 的 释放 人 处 理 仍然 存在 问题 。 之 后 的 版 本 会 引入 标记 - 清除 GC， 届 时 这 个 问题 
会 一 并 解决 ， 请 参考 4.4.5 节 。 


















































我 们 先后 提 到 了 局 部 变量 与 全 局 变量 ， 那 么 接 下 来 ， 我 再 对 变量 做 一 些 介绍 。 
变量 名 在 表达 式 中 出 现时 ， 通 过 eval expression() (参考 代码 清单 
3-10 ) 调用 eval iqdentifier expression() (代码 清单 3-15 )。 








static CRB Value 
eval identifier expression(CRB Interpreter *inter, 
LocalEnvironment *env, Expression *expr) 
CRB Value V; 
Variable *Vvp; 


























/* 首先 查找 局 部 变量 */ 
Vp = crb search local variable(env, expr->u.identifier); 
if (vp != NULL) { 
V = vp->value; 
} else { 
/* 如 果 没 有 找到 ， 则 通过 CRB_Interpreter 或 LocalEvironment 连接 
GlobalVariableRef， 在 其 中 查找 全 局 变量 */ 
vp = search global variable _ from env (inter, env, expr->u.identifier); 












































if (vp != NULL) { 
V = vp->value; 
} else { 
/* 仍然 没有 找到 则 报错 */ 
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crb runtime error (expr->line number, VARIABLE NOT FOUND ERR, 
STRING MESSAGE ARGUMENT, 
"name", expr->u.identifier, 
MESSAGE ARGUMENT END); 





} 


refer if_ string(&v); /* 这 里 下 文 会 详 述 */ 




















return v; 











crb search local variable() 会 从 LocalEnvironment 中 查找 局 部 变量 。 
另外 ，crb search global variable() 的 第 二 个 参数 LocalEnvironment 为 空 
的 话 ( 即 在 顶层 结构 中 )， 会 从 CRB_Interpreter 中 查找 。 如 果 两 者 都 没有 找到 ， 
则 从 第 二 个 参数 LocalEnvironment 连接 的 GlobalVariableRef 中 查找 全 局 


二 
变量 。 


变量 赋值 时 的 处 理 通过 eval assign expression() 进行 (代码 清单 
3-16 )。 











static CRB Value 
eval assign expression(CRB Interpreter *inter, LocalEnvironment *enyv, 


char *identifier, Expression *expression) 


{ 


CRB Value VvV; 
Variable *left; 





/* 首先 评估 右边 */ 


V = eval expression(inter, env, expression); 























/* 查找 局 部 变量 */ 
left = crb search local variable (env, identifier); 
if (left == NULL) { 

/* 没有 找到 则 查找 全 局 变量 */ 


left = search global variable from env(inter, env, identifier); 











} 
if (left != NULL) { /* 找到 变量 */ 
release if string(&left->value); /* 本 行 后 文 会 详 述 */ 
left->value = v; /* 在 这 里 赋值 */ 
refer if string(&v); /* 本 行 后 文 会 详 述 */ 
} else { /* 因为 没有 变量 ， 所 以 新 生成 */ 
if (env != NULL) { 
/* 函数 内 注册 局 部 变量 */ 
crb adqq local variable(lenv, identifier, &v); 
} else { 








































































































/* 函数 外 注册 全 局 变量 */ 
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CRB_adqq_ global variable(inter, identifier, &v); 
) 


refer if string(&v); /* 本 行 后 文 详 述 */ 














} 


return v; 




















赋值 处 理 的 流程 已 经 写 和 注释， 其 中 后 文 详 述 的 部 分 会 在 之 后 的 章节 中 说 明 。 
当前 的 语法 规则 中 ， 赋 值 表达 式 的 左边 必须 保证 为 变量 名 。 如 果 之 后 可 以 使 
用 数组 等 新 语法 元 素 ， 可 能 会 有 下 面 这 样 的 赋值 : 
alb[lfunc()]] = 10; 


左边 可 能 为 非常 复杂 的 表达 式 ， 因 此 还 需要 进一步 考虑 。 


3.3.11 | 字符 串 与 垃圾 回收 机 制 一 一 string_pool.c 


如 上 文 所 写 ， 字 符 串 类 型 通过 + 连接 的 同时 ， 需 要 配合 某 种 垃圾 回收 机 
制 ( garbage collector，GC )。 当 前 版 本 的 crowbar 是 通过 引用 计数 这 种 原始 的 垃圾 
回收 机 制 实现 的 。 

引用 计数 ， 即 通过 管理 指向 某 些 对 象 ( 这 里 是 字符 串 ) 的 指针 数量 ， 在 计数 
为 零 时 将 其 释放 的 回收 机 制 。 

crowbar 的 字符 串 保 存在 CRB_String 结构 体 中 。 









































出 





typedef struct CRB String tag { 























tal ref_count; /* 引用 计数 */ 
char *string; /* 字符 串 本 身 */ 


CRB _ Boolean is literal; /* 是 否 为 字面 常量 */ 
J a ease 


这 个 结构 体 的 string 最 终 指向 存放 字符 串 的 区 域 。 
CRB_String 会 在 下 列 的 时 机 中 生成 ， 生 成 时 引用 计数 被 置 为 1。 


















































. 字符 串 字面 常量 被 评估 时 。 
. 通过 + 运算 符 生 成 新 的 字符 串 时 。 

































































符 串 类 型 时 。 
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. 通过 fget () 函数 读 入 文件 时 。 





人 





引用 计数 为 零 时 回收 。 此 时 字符 串 本 身 ( 即 string 成 员 的 指向 ) 一 般 
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来 说 也 需要 被 释放 ， 但 如 果 字 符 串 为 字面 常量 ( literal， 即 被 "" 包 右 的 出 现在 
crowbar 代码 中 的 字符 串 ) 则 不 释放 。 字 面 常量 不 是 通过 MEM malloc () 而 是 通 
过 MEM storage malloc() 在 interpreter storage 中 开辟 的 。 区 别 字 符 
串 是 否 为 字面 常量 ， 通 过 其 成 员 is_literal 即 可 ,也 就 是 说 ， 字 符 串 字面 党 
量 所 对 应 的 CRB 0 生成 于 赋值 表达 式 的 字符 串 字 面 常 量 被 评估 时 ， 但 是 
其 指向 的 字符 串 本 身 ， 还 会 在 分 析 树 构建 时 被 重复 使 用 。 

引用 CRB_String dd 







































































1. 局 部 变量 

2. 全 局 变量 

3. 函数 的 参数 

4. eval .c 中 的 局 部 变量 、 参 数 、 返 回 值 等 ，eval . c 运 行 时 的 C 栈 




















那么 只 需要 在 这 些 指针 被 引用 时 将 引用 计数 自 增 ， 引 用 解除 时 将 引用 计数 自 
减 即 可 。 

因此 ， 在 程序 中 需要 在 以 下 的 时 机 对 引用 计数 进行 自 增 处 理 (条 目 编号 与 上 
文 CRB_String 生成 的 编号 一 一 对 应 ) 


1. 局 部 变量 被 赋值 为 字符 串 时 。 

. 全 局 变量 被 赋值 为 字符 串 时 。 

3. 函数 的 参数 被 赋值 为 字符 串 时 。 这 里 有 个 例外 ， 如 果 入 口 参 数 为 实 参 时 ， 其 表达 
式 求 值 结束 时 会 伴随 一 次 自 减 ， 会 与 本 应 进行 的 计数 自 增 两 相抵 消 。 

4. 字符 串 的 变量 被 评估 时 。 除 此 之 外 ， 当 字符 串 出 现在 表达 式 中 时 ， 会 新 生成 CRB_ 


Stringo 
而 程序 中 还 需要 在 以 下 的 时 机 对 引用 计数 进行 自 减 处 理 。 


. 存放 字符 串 的 局 部 变量 被 复写 时 ， 以 及 退出 函数 ， 局 部 变量 被 释放 时 。 

存放 字符 串 的 全 局 变量 被 复写 时 ， 以 及 程序 运行 完毕 ， 全 局 变量 被 释放 时 。 

3. 从 内 置 函数 退出 ， 释 放 入 口 参 数 时 ( 如 果 是 crowbar 函 数 ， 入 口 参数 是 作为 局 部 变 
量 处 理 的 ， 此 时 的 处 理 参考 上 面 的 条 件 1 ) 。 
字符 串 的 表达 式 会 对 其 进行 表达 式 / 语 名 评估， 评估 处 理 结束 时 。 通 过 + 运算 符 


中 


可 
对 字符 串 进行 连接 时 。 通 过 比较 运算 符 比 较 字 符 串 后 ， 两 边 的 字符 串 需 要 释放 时 。 
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NR 













































































































































































在 实际 处 理 中 ， 引 用 计数 的 自 增 通过 refer_if_string () 函数 实现 ， 其 自 
减 则 通过 release_if_string() 函数 (类似 这 种 函数 名 中 有 if_string 的 函 
数 ， 仅 限于 对 象 为 字符 串 时 才 会 进行 处 理 ) 实现 。 参 考 代码 清单 3-16 可 以 明显 


看 到 : 
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KK 











当 变 量 被 复写 时 ， 原 来 变量 中 字符 串 的 引用 计数 会 自 减 ; 
当 变 量 被 赋值 为 字符 申 时 ， 该 字符 串 的 引用 计数 会 自 增 。 

再 举 一 个 复杂 一 点 的 例子 ， 比 如 有 如 下 语句 时 ( hoge () 函数 的 返回 值 为 字 
符 串 类 型 ) ; 

a oo noge(l piyoV), 

首先 ， 在 评估 piyo 时 生成 CRB_String,， 引用 计数 被 置 为 1。 将 其 传递 给 
函数 时 ， 由 于 入 口 参数 为 实 参 ， 所 以 会 与 本 应 进行 的 计数 自 增 相抵 消 ， 引 用 计 
数 仍 然 保持 为 1 不 变 。 赋 值 给 c 后 计数 为 2， 赋 值 给 b 后 计数 为 3， 最 后 赋值 
给 a 后 计数 为 4。 同 时 ， 由 于 对 表达 式 语句 的 评估 结束， 又 会 进行 一 次 自 减 ， 所 
以 计数 为 3。 通过 a、b 、c3 个 变量 的 引用 ， 应 用 计数 最 终 为 3。 

但 是 引用 计数 这 种 垃圾 回收 机 制 存在 一 个 致命 的 缺陷 ， 那 就 是 无 法 释放 循环 
引用 。 

循环 引用 如 图 3-5 所 示 ， 即 几 个 对 象 之 间 相 互 进行 引用 。 







































































这 种 状态 下 ， 所 有 对 象 的 引用 计数 均 为 1， 因 此 通过 引用 计数 的 方式 进行 垃 
圾 回收 显然 是 行 不 通 的 。 其 实 ， 如 果 能 控制 局 部 变量 和 全 局 变量 令 其 无 法 引用 的 
话 ， 这 种 循环 引用 本 来 是 不 应 该 出 现 的 。 也 就 是 说 ， 以 引用 计数 方式 进行 垃圾 回 
收 时 ,循环 引用 会 引起 内 存 泄漏 。 

当前 的 crowbar 中 ， 垃 圾 回收 的 对 象 只 有 字符 串 一 种 ， 而 字符 串 是 无 法 引用 
其 他 对 象 的 ， 所 以 还 不 存在 循环 引用 的 问题 。 但 是 当下 几乎 所 有 的 实用 编程 语 
言 ， 都 可 以 用 一 个 对 象 保 存 指向 另 一 个 对 象 的 引用 ， 因 此 如 果 想 扩展 并 支持 这 样 
的 功能 的 话 ， 引 用 计数 式 的 垃圾 回收 机 制 就 必须 做 出 改进 。 


3.3.12 | 编译 与 运行 


如 1.6.2 节 所 写 ， 本 书 中 所 涉及 的 代码 都 可 以 在 以 下 URL 下 载 : 


http://avnpc.com/pages/devlang#download 
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x 
make 是 


的 编译 / 


具 ， 而 在 集成 开发 环 
境 中 ， 很 多 IDE 都 可 





UNIX 下 经 























动 化 构建 


























以 直接 从 菜单 中 点 击 

















Build 按钮 进行 编译 。 
make 指令 中 ， 编 译 / 
链接 等 具体 步骤 都 会 写 


在 Makefile 文件 中 。 
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将 下 载 的 文件 解压 缩 后 ， 进 入 该 文件 夹 并 运行 make* 即 可 生成 执行 文件 。 

本 书 涉及 的 程序 所 需 的 包 也 附加 在 Makefile 中 了 ， 只 是 在 Windows 所 用 的 
Makefile 中 ，C 编译 器 名 称 已 经 设置 为 了 gcc，make 名 称 也 设置 为 gmake 了 (人参 
考 1.6.1 节 )。 如 果 你 的 系统 环境 不 一 样 的 话 ， 请 根据 实际 情况 作 适 当 调整 。 

解压 的 文件 夹 中 还 放 入 了 一 个 test.crb 的 示例 代码 ， 可 以 通过 下 面 的 指令 


运行 : 


























orowbar Ecst er 
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EN crowbar ver.0.2 


crowbar book_ver.0.1 不 能 使 用 数组 ， 会 让 用 户 感觉 不 太 实 用 ， 因 此 在 book_ 
ver.0.2 中 我 们 将 引入 数组 的 概念 。 


41.1 crowbar 的 数组 


在 crowbar ver.0.2 中 ， 可 以 像 代 码 清 单 4-1 那样 使 用 数组 。 


代码 清单 4-1 # 创建 数组 
数组 a={1,2,3,4,5,6,7,8}; 


污 
器 



































# 显示 数组 


for(i = 0; i < a.size(); i++){ 
交代 和 二 a[i] 二 Wr) 

} 

print ("Nn™.); 








# 创建 九 九 乘法 表 
a99 = new array(9,9); 
for(i = 0; i < 9; i++){ 
for(j = 0; j < 9; j++){ 
a99[i] [j] = (i+1) * (j+1); 





由 
} 
# 显示 九 九 乘法 表 
for(i = 0; i < a99.size(); i =i+ 1){ 
for(j = 0; j < a99[i] .size(); j =j + 1){ 
print ("[" + a99[i] [j] + "]"); 
} 
Prirnt (Ni); 
} 


# 附带 : 显示 字符 串 长 度 
print ("len.." + "abc".length() + "\n"); 


与 C 语 言 不 同 ， 在 大 多 数 脚 本 语言 中 ， 数 组 (或 者 列表 ) 都 可 以 用 字面 量 表 
示 。 例 如 Perl 中 ， 像 这 样 : 
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(2 
就 可 以 创建 一 个 由 1、2、3 组 成 的 数组 ( 列表 )。 
Ruby 和 Python 是 这 样 的 : 





[多 

而 Tcl 是 这 样 的 : 

{1, 2, 3} 

语言 不 同 ， 数 组 的 定义 方式 也 不 相同 。 我 总 觉得 crowbar 与 C 语言 比较 相似 ， 
既然 在 C 中 数组 用 {} 初始 化 ,那么 在 crowbar 中 也 使 用 {} 吧 。 

但 2 3 

用 这 种 方式 来 创建 数组 。 同 理 ， 

汪 
就 可 以 把 数组 赋值 给 变量 。( 如 果 这 么 写 的 话 ) 可 以 像 下 面 这 样 直 接 用 下 标 指定 
元 素 。 

(Ly 2 Sy 

这 个 表达 式 的 值 是 整数 型 的 2。 

另外 ， 数 组 的 元 素 中 可 以 包含 数组 或 其 他 所 有 数据 类 型 ， 并 且 每 个 元 素 都 可 
以 包含 不 同类 型 的 数据 。 

cee en oo 

这 样 一 来 ， 在 a 中 包含 了 布尔 型 、 整 数 型 、 字 符 串 和 数组 四 个 类 型 的 元 素 ， 
其 中 第 4 个 元 素 包 含 了 数组 。a [3] 返回 一 个 数组 ，a [3] [1] 返回 10.0。 如 上 
所 述 ，crowbar 中 虽然 不 存在 多 维 数组 ， 但 实际 上 可 以 用 “数组 的 数组 ”方式 来 
实现 


4.1.2 | 访问 数组 元 素 


从 上 一 节 给 出 的 例子 中 我 们 不 难看 出 ,用 [] 的 方式 可 以 访问 数组 元 素 。 当 
然 ， 下 标 是 从 0 开始 的 。 


lo = lal 
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也 


收 器 





















































这 个 语句 把 数组 a 的 第 i 个 元 素 赋 值 给 变量 b。 
alull 5 

上 面 这 个 的 语句 将 整数 5 赋值 给 a 的 第 i 个 元 素 , 但 如 果 a 不 是 数组 类 型 的 
话 ， 运 行 时 就 会 出 现 错 误 。 还 有 ，[] 中 必须 是 整数 类 型 。 

crowbar 的 数组 不 支持 自动 扩展 。 在 Perl 等 有 些 语言 里 ， 只 要 使 用 像 a [1001] 
= 10; 这 样 的 语句 就 可 以 让 数组 自动 扩展 ， 与 数组 当前 的 大 小 无 关 。 在 把 所 有 数 
组 都 视 为 关联 数组 (字符 串 等 也 可 以 作为 下 标 ) 的 语言 《如 JavaScript ) 中 ， 也 
可 以 随时 随地 给 ar[100] 赋值 。 但是， 这 种 语言 的 设计 方式 在 我 看 来 迟早 会 出 
现 bug。 在 crowbar 里 ， 如 果 a 的 元 素数 是 5 的 话 ， 无 论 是 给 a [10] 赋值 还 是 引 
用 a [10] 元 素 ， 都 会 引发 运行 时 的 错误 。 


4.1.3 | 数组 是 一 种 引用 类 型 


crowbar 的 数组 是 一 种 引用 类 型 。 什 么 是 引用 类 型 呢 ? 说 白 了 ， 就 是 指向 原 
始 值 的 变量 类 型 ， 其 实 就 是 指针 。 与 C 语言 不 同 的 是 ，crowbar 的 数组 类 型 不 会 
发 生 访问 错误 内 存 地 址 的 情况 。 

一 个 数组 赋值 给 变量 a 时 ， 实 际 上 a 保存 的 是 “指向 ”这 个 数组 的 值 ， 将 这 
个 值 赋 给 其 他 变量 的 话 ， 两 个 变量 就 指向 了 同一 个 数组 。 因 此 ， 下 面 这 上段 程序 会 
输出 a[1l] . .5。 





























五 



























































a 
b 
Io 

Sn (a 


把 a 赋值 给 bp， 这 样 一 来 变量 a 和 变量 b 就 和 图 4-1 一 样 ， 同 时 指向 同一 个 
数组 。 








”补充 知识 “数组 的 数组 ”和 多 维 数组 
前 面 提 到 过 ，crowbar 语言 中 虽然 没有 多 维 数组 ， 但 有 了 “数组 的 数组 ”基本 上 就 
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不 考虑 crowbar 的 MEM 
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空间 。 














中 只 有 


C 滞 言 


更 大 的 管理 


可 以 实现 用 多 维 数组 做 的 事情 了 。 
如 果 要 在 crowbar 中 引入 多 维 


alles 
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数组 的 话 ， 就 要 


4.1 
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这 种 





下 夏 乡 式 .3 



































这 种 多 维 数组 有 








个 不 方便 的 地 方 ， 就 是 不 能 单独 取出 











举 个 例子 ， 每 天 的 销售 额 以 
的 销售 额 ， 要 写成 下 面 这 样 : 


的 销售 额 ( 
[2 





















































# 取 11 月 15 
uriage[10 








3 为 单位 存在 数组 中 ， 如 果 想 指定 





month 和 day 都 从 0 开始 ) 








用 元 村 了。 


数组 中 的 一 部 分 。 























i 份 和 








期 取出 某 











如 果 想 要 定义 一 
数组 作为 参数 传递 给 这 个 函数 。 
个 数组 并 计算 合计 值 的 函数 ( 


caleysvum(uiagelroD, 








DA 


# 接 受 一 


个 函数 来 计算 某 个 月 的 总 





总 营业 额 ， 








要 写成 下 再 














月 的 销售 额 为 例 ) 





上 面 的 例子 ， 数 组 的 数组 可 以 做 到 ， 

















多 给 


























通用 函数 的 时 候 )。 

难道 说 多 维 数组 就 
组 是 引用 类 型 ， 因 此 数组 的 数组 会 像 医 
会 像 图 4-3 那样 。 根 据 malloc () 


































































































“数组 的 








数组 "， 数 组 也 不 属于 引 























类 型 ， 在 这 





里 道理 是 





一 样 的 。 











请 多 个 不 连续 的 空 

















点 优点 都 没有 吗 ? 也 
4-2 中 那样 
函数 的 机 制 ， 
间 会 加 重 GC 的 负担 。 总 而 言 之 








AE 
不 能 


数组 就 不 行 了 ( 特别 是 











么 说 。 


这 么 






































请 内 存 时 








| 多 维 











组 的 数组 要 高 一 些 *。 


“数组 的 数组 ” 的 内 存 结构 





3x3 的 “ 数组 的 数组 ” 


Ca 








3x3 的 " 




















另外 ， 使 








数组 的 数组 可 以 改变 某 个 特 ; 


E 子 数 





“多 维 数组 ”的 内 存 结构 


二 维 数 组 ” 


时 > 


这 样 ， 











3 的 





只 把 某 个 


calc sum() 为 





于 在 crowbar 语言 中 数 
0 果 是 多 维 
多少 都 需要 一 些 管理 
数组 的 运行 效率 有 可 能 上 


数组 的 话 也 许 

















空间 * 









































组 的 长 度 或 者 将 其 














然 ， 要 说 它 的 方便 性 还 能 举 出 很 多 例子 来 ， 











但 是 也 

















不 需要 它 的 时 候 ， 











的 棋盘 ， 已 经 定好 了 是 8x 8， 这 种 情况 下 
C#、D、Ada 等 语 
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言 能 够 同时 支持 数组 的 数组 和 


多 维 数组 来 表示 会 更 


明确 。 








数组 。 
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设置 为 null。 当 
比如 一 个 五 子 棋 
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人 


4.1.4 | 为 数组 添加 元 素 
crowbar 的 数组 不 能 简单 地 使 用 赋值 语句 进行 自动 扩展 ， 而 是 需要 显 式 地 添 


加 元 素来 扩展 数组 。 下 面 的 代码 在 数组 的 未 尾 追加 了 一 个 元 素 。 


人 
a.add (4);，; 


这 样 一 来 ，a 指向 的 数组 就 变 成 了 {1，2，3，4}。 

根据 实际 情况 ,我们 希望 有 些 数组 一 次 就 生成 指定 的 大 小 。 比 如 ， 想 要 管理 
40 名 学 生 的 身高 ， 用 索引 值 来 表示 学 号 ， 但 是 生成 数据 的 顺序 是 随机 的 。 像 这 种 
情况 最 好 从 一 开始 就 预先 生成 一 个 40 个 元 素 的 数组 。 

我 觉得 还 是 不 要 过 多 地 摆弄 语法 ， 使 用 原生 函数 比较 好 。 原 生前 数 new_ 
array() 可 以 生成 一 个 指定 大 小 的 数组 。 

a = new array(40) ; 


初始 化 状态 下 ， 所 有 的 元 素 都 是 nul1。 
给 这 个 函数 传人 多 个 参数 ， 也 可 以 生成 多 维 数组 ( 数组 的 数组 )。 
el ee me clare ls, LO) 


上 例 创 建 了 一 个 元 素 最 多 到 a [4] [9] 的 数组 。 



























































增加 调用 ( 伪 ) 方法 的 功能 








前 面 的 章节 中 ， 使 用 了 一 种 方法 调用 式 的 语法 结构 为 数组 添加 元 素 。 
.add(3) ; 
为 了 文 持 这 种 方法 调用 ， 我 们 修改 了 语法 结构 ， 也 为 字符 串 增加 了 lengtnh () 
方法 。 


4.1.6 其 他 细节 


在 变更 左 值 的 处 理 方式 的 同时 ,我们 顺便 引入 了 自 增 和 自 减 运算 符 。i++ 
时 二 会 增加 1，-- 时 同 理 。 在 crowbar 中 ， 自 增 和 自 减 运算 符 只 能 放 在 后 面 ， 不 
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文 持 前 置 的 ++ 和 --。 

C 语言 中 自 增 和 自 减 运算 符 前 置 和 后 置 的 含义 不 同 。 人 们 很 难 读 懂 在 一 行 里 
面 写 满 了 表达 式 的 代码 ， 所 以 我 觉得 自 增 和 自 减 最 好 还 是 独占 一 行 ， 这 样 一 来 前 置 
和 后 置 的 含义 就 相同 了 ， 不 论 写 在 哪 边 都 可 以 。 就 我 个 人 而 言 ， 一般 习惯 写 在 后 面 。 

也 许 有 人 会 问 了 ， 在 一 行 里 只 能 写 一 个 自 增 和 自 减 的 话 ， 为 什么 它们 非 要 是 
表达 式 呢 ?” 变 成 语句 不 是 更 好 吗 ? 如 果 是 这 样 的 话 ，for 语句 的 第 三 个 表达 式 就 
没 法 使 用 i++ 了 ， 所 以 它们 还 是 用 作 表 达 式 吧 ，。 
















































































制作 标注 -清除 GC 


crowbar book_ver.0.1 中 采用 的 引用 计数 GC 存在 不 能 释放 循环 引用 的 问题 ， 
于 是 在 book_ver.0.2 中 将 实现 一 个 标记 - 清除 GC。 


4.2.1 | 引用 数据 类 型 的 结构 


在 讨论 GC 的 话题 之 前 ， 先 说 明 一 下 crowbar ver.0.2 中 引用 数据 类 型 的 处 理 
方式 。 

crowbar 中 有 以 下 两 种 引用 数据 类 型 ; 

e@ 数组 

。 字符 串 

尤其 是 字符 串 ， 它 是 一 个 不 允许 改变 内 容 ( immutable ) 的 对 象 ， 用 户 没 有 必 
要 意识 到 它 是 一 个 引用 (请 参考 4.2.2 节 的 补充 知识 )。 

crowbar 的 所 有 值 都 保存 在 CRB Value 中 。 在 crowbar book ver.0.1 
里 ，CRB Value 直接 保存 着 指向 CRB_String 的 指针 。 从 现在 开始 ， 将 增加 新 
的 CRB_object 类 型 用 来 统一 处 理 字符 串 和 数组 ， 在 CRB_Value 中 将 保存 指 
向 CRB_Object 的 引用 。 





















































typedef struct{ 
GREENVaUem ee EMDeS 
nem 
CRB_ Boolean boolean value; 
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污 
器 


























sf 


4nt Eee 
double qoubelemvaul es 
CRENaEI EPonmtes malenme oomet en 
CRB_Object x*object;/* 这 个 是 新 增 的 */ 
} ui 
} CRB Value; 


用 CRB_Object 内 的 联合 体 来 保存 CRB_String 以 及 为 了 这 次 数组 而 引入 
的 类 型 CRB_Array。 





typedef enum{ 
ARRAY OBJECT = 1, 
STRINGIOBYIECT, 
OBJECT TYPE COUNT PLUS 1 
} ObjectType; 





struct CRB Object tag{ 
ObjectType type; 
unsigned int marked:1; 
uniont{ 
CRB Array array; 
CREESEe ne enim 
人 
clarele (GRs (Ole eal Ieee) Wolaene 
SEmUcEe eRe a nexel 





























虽然 通过 CRB_Value 可 以 明确 地 区 分 出 数据 类 型 ， 但 是 为 了 在 GC 的 时 候 
仅 通 过 CRB_Object 就 可 以 能 够 辨别 数据 类 型 ， 必 须 在 CRB_Object 中 加 入 一 
个 objectType 枚 举 类 型 的 成 员 。 

CRB_Object 的 成 员 marked 作为 一 个 标记 对 象 用 的 标识 符 ， 将 用 于 后 面 要 
谈 到 的 标记 - 清除 GC。 至 于 它 的 数据 类 型 ， 由 于 1 个 比特 就 足够 了 ， 因 此 选择 
了 位 域 ( bit field )。 

说 起 位 域 这 个 功能 ， 其 实在 C 语言 中 不 太 会 用 到 。 即 使 在 现在 的 自由 软件 
中 ， 应 该 也 有 不 少 自己 进行 位 运算 并 为 int 变量 附加 各 种 标识 的 情况 。 但 我 
认为 ， 时 至 今日 人 们 已 无 需 刻 意 回 避 位 域 这 个 话题 了 了。 不过， 如 果 从 富翁 式 
启程 的 角度 出 发 ， 就 算是 1 个 比特 的 标志 位 ， 可 能 也 要 给 它 分 配 一 个 CRB_ 
Boolean 型 。 


CRB_ Object 的 联合 体 中 有 CRB_Array 或 CRB_String, 它 们 的 定义 如 下 : 





























NS 














struct CRB Array tag { 
ni size;/* 显示 用 的 元 素数 */ 
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le alloc size;/* 实际 占用 的 元 素数 */ 
CRB Value ”*array;/* 数组 元 素 ( 数组 长 度 可 变 ) */ 





ba 


Senuce eCRpenser nea 
GREPEROOlS on ene 
char pha hte 


bs 
为 了 提高 效率 ， 数 组 在 添加 元 素 时 会 多 扩展 一 些 空间 ， 所 以 在 size 属性 之 
外 还 保存 了 alloc_size 属性 。 


4.2.2 | 标记 - 清除 GC 


前 面 说 过 ，book_ver.0.1 中 使 用 的 引用 计数 GC 不 能 释放 循环 引用 。 在 
book ver.0.1 里 ，GC 对 象 只 是 字符 串 ， 并 不 会 因为 不 能 释放 循环 引用 而 出 现 问 
题 。 但 是 有 了 数组 的 数组 ， 这 样 的 方式 在 book_ver.0.2 中 就 有 可 能 引起 问题 ， 

















比如 : 
a 
= 
algd] = B; 


这 样 一 段 代码 就 形成 了 图 4-4 中 描述 的 循环 引用 。 
发 生 循环 引用 时 ， 即 使 它们 整体 上 不 再 被 引用 ， 引 用 计数 器 此 时 也 不 为 0。 
是 所 谓 的 内 存 泄漏。 




















入 





























于 是 我 们 抛弃 掉 引 用 计数 GC， 引入 标记 - 清除 GC。 本 来 所 谓 的 垃圾 回收 
( GC ) 就 是 要 自动 释放 不 使 用 的 对 象 占据 的 内 存 空间 的 机 制 。 但 是 ， 怎 么 去 定义 
“不 使 用 的 对 象 ” 呢 ? 其 实 就 是 “绝对 不 会 被 引用 到 的 对 象 "。 比 如 : 


{1 
{2 之 汗 4}; 


这 样 一 段 代码 在 执行 了 第 二 行 的 赋值 语句 后 ，{1， 2， 3】} 这 个 数组 就 不 再 被 引 
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用 了 ， 即 成 为 了 GC 的 对 象 ( 如 图 4-5 所 示 )。 


ee 世 谁 都 不 会 再 指向 这 个 数组 了 
例子 
| 


所 谓 标 记 - 清除 GC 是 一 种 直接 实现 定义 “不 使 用 的 对 象 ”的 GC 算法 。 这 





































































































个 算法 有 以 下 几 个 原则 。 
1. 从 变量 之 类 的 “引用 起 点 ”开始 ， 追 溯 所 有 能 引用 到 的 对 象 并 标记 。 ( 标注 
阶段 ) 
2. 将 没有 被 标记 的 对 象 全 部 释放 。 ( 清除 阶段 ) 














crowbar 里 能 够 成 为 “引用 起 点 ”的 有 以 下 几 处 ， 我 们 称 这 些 “ 引 用 起 点 ” 










































































为 根 ( root 或 roots )。 
TL; 局 变量 
2. 局 部 变量 。 包 含 用 crowbar 语 言 记 述 的 函数 的 形式 参数 。 
3. 原生 函数 的 式 人 参数。 
4. 表达 式 计算 时 的 临时 引用 。 



































只 有 从 这 些 根 能 够 追溯 到 的 对 象 才 可 以 存留 下 来 ， 其 余 的 对 象 将 被 视 作 GC 
的 目标 被 释放 。 


4-6 根 堆 
成 为 GC 目标 的 对 象 











©®@ ©@©®© 将 被 释放 的 对 象 


不 会 被 释放 的 对 象 








全 局 变量 
局 部 变量 
， 原生 函数 的 参数 
。 表达 式 计算 时 的 临时 值 














这 些 根 中 最 难处 理 的 就 是 表达 式 计算 时 的 临时 引用 。 比 如 有 个 表达 
pa + "def" + "ghi",crowbar 的 解释 器 首先 会 计算 "abc" + "def",，, 
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生成 字符 串 "abcdef"*。 这 个 字符 串 的 存在 是 必要 的 ,但 不 论 是 全 局 变量 还 是 





在 编译 时 处 理 多 个 字 
符 串 字面 量 的 加 法 运 
( 虽然 可 以 这 么 做 )， 所 
以 在 这 个 例子 中 ， 使 
字符 串 字面 量 进行 加 法 
运算 的 效果 与 使 用 字符 
串 变 量 相 同 ， 这 里 并 不 
是 为 了 说 明 变 量 和 字面 
量 的 差异 。 






























































































































































也 不 知道 Java 这 样 的 设 
计 方 便 性 在 哪里 。 可 能 
是 会 提升 intern() 的 
效率 吧 。 





局 


部 变量 或 者 原生 函数 的 形式 参数 都 不 会 引用 它 ， 这 样 一 来 临时 变量 就 会 被 GC 























丢弃 ， 情 况 就 会 变 得 很 糟 。 也 许 有 人 会 想 : “在 这 种 关键 时 刻 不 要 让 GC 启动 不 就 
行 了 ?” 下 面 这 个 例子 就 阐述 了 crowbar 在 此 时 要 启动 GC 的 原因 。 


ermme( aber eet tongmlongEtonetion ye 


但 本 例 中 的 long_long_function() 在 执行 过 程 中 不 进行 GC 是 不 现实 





的 ， 所 以 在 表达 式 计算 的 过 程 中 应 该 允许 启动 GC。 




















crowbar 中 GC 的 启动 时 机 将 在 后 面 的 章节 介绍 ， 大 概 的 原则 就 是 ， 在 新 分 配 


内 存 空间 的 时 候 有 可 能 会 启动 。 


补充 知识 。 引用 和 不 可 变 类 


在 crowbar 中 ， 整 数 和 实数 类 型 的 变量 都 是 把 值 直 接 存 在 CRB_Value 中 ， 但 是 字 
符 串 和 数组 类 型 在 CRB_Value 中 只 保存 引用 。 举 例 来 说 ，Java 与 crowbar 相同 ， 
Java 中 像 int 或 者 double 这 样 的 类 型 叫 作 原始 类 型 ( primitive type )， 而 像 字符 串 
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在 
或 


























































































































者 数组 这 样 的 类 型 叫 作 引 用 类 型 ( reference type )。 

有 人 可 能 会 说 ， 存 在 两 个 种 类 的 数据 类 型 有 违 编程 之 美 ， 可 是 在 crowbar 中 不 必 认 
为 字符 串 是 一 种 引用 类 型 。 至 于 数组 ， 只 有 像 下 面 这 段 代 码 编写 出 的 数组 才 是 一 种 引 
类 型 。 

a 

b = a; 

a[1] 























如 果 是 字符 串 的 话 ， 就 没 办 法 改变 内 容 了 ( 这 样 的 数据 类 型 称 为 不 可 变 的 数据 类 
型 )。 比 如 用 + 运算 符 连 接 字符 串 , 就 会 得 到 一 个 新 的 字符 串 对 象 , 之 前 “字符 串 对 象 的 
内 容 不 会 发 生 改 变 。 
































Se 
b = a; 
a = a + "d"; EeyabEl ll Ul 

另外 ，crowbar 中 如 果 使 用 == 比较 字符 捉 的 话 ， 不 是 进行 引用 之 间 的 比较 ， 而 是 
比较 字符 串 的 内 容 。Java 在 这 种 情况 下 比较 的 就 是 引用 ， 难 不 成 是 特意 让 人 感觉 到 字 


符 申 是 一 种 引用 ? * 

















































































































按照 刚才 的 思路 ， 可 能 只 能 让 字符 串 看 起 来 像 是 一 个 原始 类 型 ， 数 组 仍然 是 引用 类 型 。 


















































但 这 样 的 解释 并 不 能 让 刚才 说 “存在 两 个 种 类 的 数据 类 型 有 违 编程 之 美 ”的 人 满意 
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那么 不 妨 逆 向 思考 一 下 ， 可 以 把 整数 类 型 和 实数 类 型 都 看 作 是 引用 类 型 。 这 样 一 
来 ， 不 可 变 的 引用 类 型 和 原始 类 型 就 看 不 出 区 别 了 。 如 果 不 考 虑 实现 问题 ， 可 以 勉强 把 
整数 和 实数 看 作 是 不 可 变 的 引用 类 型 。 

不 知道 上 面 的 解释 能 否 使 那些 认为 “存在 两 个 种 类 的 数据 类 型 有 违 编程 之 美 ”的 人 
满意 ， 不 过 ， 在 给 编程 新 手 讲 这 个 问题 时 ， 这 种 解释 是 否 行 得 通 ， 我 觉得 就 另 当 别论 了 。 

钢 在 的 编程 入 门 书 ， 基 本 上 都 把 变量 解释 为 “ 像 是 用 来 放 值 的 盒子 ”( 我 曾经 也 这 
样 写 过 )。" 盒 子 说 ”是 用 来 解释 原始 类 型 的 ， 如 果 要 说 明 “ 一 切 都 是 引用 "， 就 不 得 不 
引入 其 他 说 法 ( 也 许 是 “名 片 说 ”? ) 了 。 

“盒子 说 ”也 不 是 毫 无 问题 的 ( b = a; 的 时 候 ，a 的 内 容 转 移 到 了 b 里 面 ， 那 a 不 
是 应 该 变 成 空 的 了 吗 ? )。 大 多 数 新 手 好 像 很 难 理解 引用 的 概念 。 另 外 ， 关 于 “存在 两 个 
种 类 的 数据 类 型 有 违 编程 之 美 ” 这 种 说 法 ， 新 手 也 不 会 太 在 意 统一 性 之 类 的 事情 ( 对 编 
程 语言 有 了 一 定 程度 的 了 解 后 才 会 在 意 )。 以 我 的 经 验 来 看 ， 如 果 是 以 教会 新 手 编程 为 
目的 ， 与 其 让 他 们 知道 统一 性 之 类 的 道理 ， 不 如 用 盒子 说 来 说 明 会 更 加 容易 。 总 而 言 
之 ， 写 代码 才 是 对 编程 语言 的 学 习 最 有 帮助 的 。 








4.2.3 crowbar 栈 


让 我 们 继续 “表达 式 计 算 时 的 临时 引用 很 难处 到 
你 要 问 在 哪儿 出 现 了 “表达 式 计算 时 的 临时 引用 ”， 其 实 crowbar book 


四 
个 





如 


上 ”这 个 话题 。 





ver.0.1 里 面 的 eval.c 中 各 函数 的 局 部 变量 就 是 。 
比如 字符 串 连 接 时 ，crb_eval binary expression() 函数 会 按照 以 下 
顺序 执行 (具体 代码 省 略 )。 





CRREVaueeh 
CRENVSUe 
CREDVaUe 


/* 计算 左边 的 
下 人 在 局 
/* 计算 右边 的 
siaie 是 wii 





0 





P 间 省 略 ) 


result 


/* chain string 执行 时 ， GC 可 


result 


EEC 
工 可 ESi 
SWINE 


昼 沪 


vom wo nese on (meer 


伪 3y 


ema esomn( nee 


te 


Se me one 


env, left); 


env or Lt 


CRT_STRING VALUE; 


Ac 公 
BE 去 





启动 */ 


chanmest emo mee 


ale Maal eo rieneanre vd 


raate nlen Aha) 
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毕 
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些 程序 中 











关 
这 种 内 存 溢 出 会 随 着 运 
行 时 间 慢 慢 泄 涯 


性 质 的 

















种 类 型 的 保守 式 GC 
泄露 的 对 象 数量 与 
对 栈 的 长 度 成 一 定 比 











， 而 且 这 个 比例 几乎 








0 党 账 恒 


固定 的 。 
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中 间 省 略 ) 


return result; 

像 "abc" + "def" + "ghi" 这 样 的 表达 式 ， 它 的 分 析 树 如 网 4-7 所 示 。 
因为 是 从 最 深层 次 开始 计算 ，left_val 会 暂时 持 有 指向 字符 串 "abcedf" 的 
引用 ， 然 后 在 调用 chain_string() 函数 时 ， 由 于 会 申请 内 存 空间 ， 因 此 也 
有 可 能 启动 GC (关于 GC 启动 的 时 机 ， 我 将 在 4.3.2 节 介 绍 )。 此 时 ， 
记 left_val 指向 的 对 象 ( chain_string () 会 被 更 深 的 层级 调用 )， 但 是 
GC 的 角度 ， 是 看 不 到 只 作为 局 部 变量 的 left_val 的 。 


left val 持 有 引 


建 "abcdef" (+) Ceni) 


想 要 解决 这 个 问题 倒是 有 一 个 办 法 ， 就 是 扫描 C 的 局 部 变量 内 存 区 域 ( Ruby 
使 用 的 方法 )。C 语言 的 局 部 变量 通常 分 配 在 栈 上 ， 所 以 只 要 在 表达 式 求 值 开始 时 
记录 下 相关 局 部 变量 的 地 址 ， 并 且 在 GC 的 时 候 再 记录 一 次 相关 局 部 变量 的 地 址 ， 
就 足以 保证 在 这 期 间 分 配 的 局 部 变量 肯定 在 这 两 处 地 址 中 (假设 没有 被 优化 分 配 
到 寄存 需 上 的 话 )。 这 样 ， 扫 描 C 的 所 有 局 部 变量 区 域 ， 若 能 发 现形 似 引 用 对 象 
虽 针 的 地 方 ， 就 以 此 为 起 点 开始 标记 。 

只 是 这 个 方法 有 如 下 缺点 ， 让 我 不 太 想 用 它 。 

e ( 虽然 说 移植 性 相当 高 ， 但 是 ) 依赖 C 语言 的 实现 ， 有 违 编程 之 美 。 

@ 因为 不 知道 是 栈 中 的 哪些 部 分 引用 的 对 象 ， 所 以 不 得 不 采取 “把 看 上 去 像 对 象 引 用 
的 全 部 当做 对 象 引用 来 处 理 ” 的 方法 。 如 果 要 处 理 的 区 域 不 是 引用 对 象 ， 就 会 发 生 
内 存 泄 漏 。 顺 便 说 一 句 ， 这 种 GC 叫 作 保守 式 GC。 

就 内 存 泄漏 而 言 ， 我 觉得 (从 Ruby 应 用 的 情况 来 看 ) 在 应 用 上 不 成 问 
题 *。 虽 说 这 是 C 语言 ， 但 要 让 我 胡乱 地 将 指针 作为 地 址 处 理 也 是 不 可 以 的 。 

crowbar 到 底 要 怎么 处 理 呢 ? 既然 C 语言 的 栈 这 人 么 不 好 用 ， 那么 全 部 用 独 
立 的 栈 管理 不 就 好 了 吗 ? 对 此 ， 把 “表达 式 运 算 时 的 临时 引用 ” 放 在 独立 
的 栈 ( CRB_Value 数组 ) 中 ，GC 把 这 个 栈 中 可 以 引用 到 的 对 象 标记 起 来 就 
可 以 了 。 
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用 Stack 结构 体 来 表示 栈 。 


typedef struct { 





Tmnt Stackyallocne er 
im SEackapolmnter, 
CRBEVawcS ESEaels 

Seaece 


CRB_Interpreter 持 有 这 个 结构 体 ( 只 有 CRB Interpreter 会 持 
有 stack 结构 体 ， 这 么 做 只 是 为 了 划分 空间 )。 在 这 个 栈 中 (以 后 就 称 为 
crowbar 栈 吧 )， 与 是 否 包 含 对 象 的 引用 无 关 ， 它 会 把 表达 式 运算 时 产生 的 所 有 值 
都 保存 起 来 。 

在 此 之 前 ， 所 有 的 eval.c 运算 函数 都 将 运算 的 结果 值 作为 返回 值 ， 而 ver.0.2 
以 后 的 版 本 都 将 由 栈 返回 。 因 此 ， 之 前 使 用 过 的 eval_xxx_expression() 系 
列 函 数 的 返回 值 也 从 CRB_ Value 变 成 voida 了。 

例如 ， 有 如 下 表达 式 : 


le (1 


会 形成 如 图 4-8 这 样 的 分 析 树 ， 表 达 式 运算 时 栈 的 变化 如 图 4-9 所 示 。 








4-8 
表达 式 的 分 析 树 (:) 
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总 而 言 之 ， 就 是 从 栈 中 获取 了 * 和 + 运算 符 的 操作 数 ， 并 将 运算 结果 的 值 留 
在 了 栈 上 。 这 种 做 法 与 JVM 栈 运行 字 节 码 时 的 栈 动作 相同 。 如 此 一 来 ,我 们 就 


向 字 节 码 解 释 需 又 迈进 了 一 步 。 


本 书 的 后 半 部 分 将 介绍 字 节 码 解释 旧型 语言 的 制作 方法 。 





其 他 根 


接 下 来 ， 将 要 说 明 除了 “表达 式 运算 时 的 临时 引用 ”之 外 的 三 种 根 。 


1. 全 局 变量 
全 局 变量 可 以 在 CRB_Interpreter 中 
起 点 进行 标记 。 


2. 局 部 变量 





以 链表 的 形式 追溯 ,很 容易 以 此 为 


在 LocalEnvironment 结构 体 中 持 有 局 部 变量 ， 并 作为 参数 传递 。 
为 了 使 GC 能 够 全 部 标记 当前 生效 的 局 部 变量 ， 并 且 在 任何 时 候 都 能 追踪 


到 这 些 局 部 变量 , 在 LocalLEnvironment 上 





P 增 加 了 成 员 next， 使 之 成 为 链表 


( 因为 这 个 版 本 的 结构 体 都 写 在 CRB_dev.h 中 ， 所 以 加 上 cRB_ 作为 前 级 。 请 参 


考 4.4.4 节 )。 
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struct CRB LocalEnvironment tag { 


}; 


Variable wvariable; 
GlobalVariableRef glioDaum va ole 


RefInNativeFunc 

















struct CRB LocalEnvironment tag *next;/* 新 增加 */ 


链表 的 顶端 由 CRB_Interpreter 持 有 。 





用 的 函数 的 CRB_LocalEnvironment。 


struct CRB Interpreter tag { 


13 


值得 一 提 的 是 ， 


量 了 。 


( 省 略 ) 


CRB LocalEnvironment Sopenvy onmene, 




















， 就 可 以 引 月 


当前 的 crowbar 版 本 在 搜索 局 部 变量 的 时 候 ， 
作为 参数 传递 的 LocalEnvironment 开始 搜索 ， 
所 有 LocalEnvironment 开始 搜索 , 这 样 一 来 ” 





这 样 的 作用 域 称 为 动态 作用 域 ( dynamic scope )“。 说 实话 ， 


以 理解 ， 所 以 在 最 近 





的 local 变量 都 是 动态 作用 域 )。 


4.2.5 原生 函数 的 形式 参数 


在 调用 上 
因此 没有 必要 特 
样 一 来 ， 即 使 














*ref in native method;/* 之 后 会 讲 到 */ 





这 里 的 “顶端 ” 指 的 是 最 后 被 调 





会 从 最 近 一 次 


顺 着 next 从 函数 调用 路 径 中 
月 到 函数 调用 者 的 变 





这 点 确实 让 人 难 
的 语言 中 已 经 不 流行 这 种 方式 了 (Emacs Lisp 和 了 Perl 之 类 


时候，crowbar 中 描述 的 也 ee 
别 注 意 。 原 生 函 数 的 形式 参数 以 数组 的 形式 传递 给 原生 函数 ， 
E GC 在 原生 水 数 执行 过 程 中 启动 ，GC 也 可 以 追溯 到 这 些 


三 
变量 。 


原生 函数 的 实际 参数 存 人 crowbar 栈 中 ， 传 递 给 原生 函数 的 只 是 头 地 址 。 
crowbar 的 栈 将 占用 更 大 的 内 存 地 址 。 因 此 ， 从 前 往 后 按 顺序 计算 参数 ， 即 
可 将 参数 数组 传递 给 原生 函数 。 

















中 即 在 函数 被 调 











@ 关 3 











时 。 一 一 译 者 注 























动态 作 











域 的 策略 ,“ 对 一 个 名 字 x 的 使 用 指向 的 是 最 近 被 调 朋 

















过 程 中 的 这 个 声明 "。( 摘自 “ 龙 书 "P19 ) 一 一 译 者 注 
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GC 的 实现 


之 前 介绍 了 标记 - 清除 GC 的 基本 原理 和 crowbar 中 对 象 引 用 的 根 。 本 节 开 
始 介绍 在 crowbar 里 运行 着 什么 样 的 GC 以 及 它 的 实现 方式 。 
另外， 与 GC 相关 的 代码 大 部 分 收录 在 heap.c 中 


4.3.1 | 对 象 的 管理 方法 


crowbar 中 像 字 符 串 和 数组 这 样 的 对 象 可 以 通过 CRB_object 结构 体 保存 
在 堆 ( heap )* 中 。CRB_Object 需要 逐个 使 用 MEM_malloc () 申请 内 存 空间 。 




















[e] 
































C 语言 使 用 malloc() 申 









































a ei 前 面 已 经 给 出 了 CRB_Object 结构 体 的 定义 ， 它 在 成 员 中 持 有 指针 prev 和 
义 以 任意 顺序 申请 或 释 
放 的 内 存 区 域 。 next。 由 名 字 可 以 联想 到 ，CRB_Object 是 作为 双向 链表 进行 管理 的 。 





CRB_Interpreter 中 持 有 这 个 链表 的 头 节点 。 为 了 方便 管理 堆 相 关 的 信 
息 ， 我 们 定义 了 结构 体 Heap。 


typedef struct { 





本 eurnenteneapl es 
sbile cecumrenteehreshole, 
CREEOEJEcE EeesSS 

} Heap; 


header 指向 CRB_Object 链表 的 开头 。current heap size 和 current_ 
threshold 用 于 控制 GC 的 启动 时 机 。 


4.3.2 | GC 何 时 启动 


在 程序 运行 的 过 程 中 ,标记 - 清除 GC 会 在 某 个 时 机 启动 ， 释 放 不 需要 的 对 
象 。 那 么 究竟 要 在 何 时 启动 GC 呢 ? 

其 中 一 种 方案 就 是 内 存 不 足 的 时 候 ( 即 malloc () 返回 NULL 时 )。 我 们 先 不 
考虑 MEM malloc() 在 malloc() 返回 NULL 时 会 调用 exit () 的 情况 ， 若 是 
到 了 malloc() 返回 NULL 的 地 步 ， 那 就 说 明 内 存 空 间 是 真 的 不 足 了 ， 此 时 再 运 
行 GC 为 时 已 晚 。 像 后 面 说 到 的 那样 ， 现 在 的 标记 - 清除 GC 需要 使 用 大 量 的 栈 
空间 ， 因 此 ， 如 果真 是 到 了 malloc () 返回 NULL 的 地 步 ， 也 不 知道 GC 是 否 能 









































图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 要 














130 | 第 4 章 数组 和 标记 -清除 垃圾 


也 


收 器 














启动 。 大 多 数 的 操作 系统 即使 调用 了 free () 函数 ， 也 不 会 将 释放 出 来 的 内 存 空 
间 还 给 操作 系统 ， 只 是 可 以 再 次 使 用 malloc () 而 已 。 因 此 即使 GC 将 内 存 空间 
释放 ， 其 他 应 用 (进程 ) 也 不 能 使 用 ， 所 以 GC 要 是 坚持 到 内 存 被 占 满 时 才 启 动 
的 话 ， 会 给 其 他 程序 带 来 很 大 的 麻烦 。 

于 是 ，crowbar 使 用 了 这 样 一 种 方式 ， 即 耗费 了 一 定量 的 内 存 后 ， 就 启动 

ihreshold 是 六 们 的 意思 。 GC。 这 个 一 定量 在 Heap 结构 体 的 current _thresholg* 中 保存 ， 初 始 值 由 

宏 HEAP_THRESHOLD SIZE 定义 (#define )， 暂 定 为 256KB。 

crowbar 每 次 创建 对 象 ， 都 要 把 所 创建 对 象 的 大 小 值 生 加 到 CRB_ 
Interpreter 中 Heap 结构 体 的 current_ heap size 上。 这 个 大 小 值 也 就 是 
要 传 给 MEM malloc () 的 大 小 值 ， 所 以 这 个 值 不 包含 malloc () 或 MEM 模块 的 
管理 空间 (毕竟 是 相似 的 )。 

而 且 ， 在 创建 对 象 前 ， 要 先 调 用 check gc () 。 


static void 
































cheekmee (CeemimbEen eee 


{ 








/* 堆 耗 费 量 超过 阐 值 的 话 …… wa 

if (inter->heap.current heap size > inter->heap.current threshold) { 
/= a 3 
crb garbage collect (inter); 








/是 一 个 国生 3Y 
mnterm = heapneurs cntathrechele 
= inter->heap.current heap size + HEAP THRESHOLD SIZE; 


} 
上 面 的 函数 中 ， 如 果 堆 的 消耗 量 超过 了 当前 的 阔 值 就 启动 GC。 执 行 GC 
的 时 候 ，current heap_size 的 值 会 变 小 ， 将 变 小 后 的 current_heap 
size 和 HEAP THRESHOLD SIZE 相 加 ， 就 得 出 了 下 一 个 阔 值 。 
至 于 函数 crb_garbage collect () 就 没有 必要 详细 说 明了 。 


void 








endoarDage ne ole et (Crm ee em 
人 

gc mark objects (inter);/* mark */ 

gc_ sweep objects (inter) ;/* sweep */ 





(D 预 处 理 命令 。 一 一 译 者 注 
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上 面 调用 的 gc_mark_objects() 都 做 了 哪些 事 ， 请 参见 代码 清单 4-2。 在 
清除 了 所 有 对 象 标记 的 基础 上 ， 从 各 个 根 ( 前 面 介绍 过 ) 开始 调用 gc_mark ()。 





















































J 4-2 static void 
gc_mark_objects() gc_ mark objects(CRB Interpreter *inter) 
{ 
CRB_ Object *obj; 
Variable *v; 
CRB LocalEnvironment *l1yv; 
生 训 乱 ” 主 站 
/* 清除 全 部 标记 ( mark ) */ 
for (obj = inter->heap.header; obj; obj = obj->next) { 
gc_reset mark (obj); 
} 
/* 全 局 变量 */ 
for (v = inter->variable; v) V = V->next) { 
if (dkc is object value(v->value.type)) { 
gc mark (V->Value.u.object) ; 
} 
} 
/* 局 部 变量 */ 
for (lv = inter->top environment; lv; lv = lv->next) { 
for (v = lv->variable; v; Vv = Vv->next) { 
if (dkc is object value(v->value.type)) { 
gc _ mark (v->value.u.object); 
} 
} 
gc mark ref in native method(1lv); /* < 这 里 稍 后 再 做 说 明 */ 
} 
/* crowbar 栈 */ 
for (i = 0; i < inter->stack.stack pointer; i++) { 
if (dkc is object value(inter->stack.stack[i] .type)) { 
gc mark (inter->stack.stack[i] .u.object); 
} 
} 
} 











gc_mark () 相关 内 容 请 参见 代码 清单 43。 如 果 对 象 已 经 被 标记 ， 就 直 
接 return (为 了 防止 循环 引用 时 出 现 死 循环 )， 然 后 将 自己 打上 标记 。 如 果 是 数 
组 的 话 就 遍历 每 个 元 素 ， 并 以 此 为 参数 递归 调用 gc_mark () 。 
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代码 清单 4-3 static void 
gc_mark() gc mark (CRB Object *obj) 


{ 


if (obj->marked) 
return; 


obj->marked = CRB_ TRUE; 


if (obj->type == ARRAY OBJECT) { 
int 414; 
for (i = 0; i < obj->u.array.size; i++) { 
if (dkc is object _ value (obj->u.atrtay.atrtray[il .type)) { 


gc _ mark (obj->u.array.array [i] .u.object); 











4.3.3 清除 阶段 


在 清除 阶段 释放 那些 链表 中 没有 被 标记 的 管理 对 象 ， 并 维护 链表 ( 见 代 码 清 
单 4-4)。 


代码 清单 4-4 | static void 
gc_sweep_objects() gc_sweep objects (CRB Interpreter *inter) 


人 





CRB Object *obj; 
CRB Object *tmp; 


for (obj = inter->heap.header; obj; ) { 
if (!obj->marked) { 
if (obj->prev) { 
Obj->prev->next = obj->next; 
} else { 
inter->heap.header = obj->next; 
} 
if (obj->next) { 
Obj->next->prev = obj->prev; 
} 
tmp = obj->next; 
gc _ dispose object (inter, obj); 
obj = tmp; 
} else { 
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obj = obj->next; 








这 其 中 调用 的 gc_dispose _object() 把 数组 和 字符 串 区 分 进行 处 理 ， 释 
放 了 CRB_Object 头 地 址 指向 的 空间 ( 见 代码 清单 4-5 )。 





代码 清单 4-5 
gc_dispose_object() 





static void 
gc_dispose object (CRB Interpreter *inter, CRB Object *obj) 
' 
switch (obj->type) { 
Case ARRAY OBJECT: 
inter->heap.current heap size 
-= Sizeof (CRB Value) * obj->u.array.alloc size; 
MEM free(obj->u.array.array); 
break; 
case STRING OBJECT: 
if (!lobj->u.string.is literal) { 
inter->heap.current heap size -= strlen(obj->u.string. 
string) + 1; 


MEM free(obj->u.string.string); 





} 
break; 
Case OBJECT TYPE COUNT PLUS 1: 
default: 
DBG assert (0, (“bad type..%d\n”, obj->type)); 
} 
inter->heap.current heap size -= sizeof (CRB Object); 


MEM free (obj); 











补充 知识 。 GC 现存 的 问题 
crowbar 的 GC 最 简单 地 实现 了 标记 -清除 GC。 
在 以 下 问题 。 
. 运行 GC 时 ， 程 序 会 停止 运行 。 
2. 标记 ( mark ) 时 的 递归 调用 会 消耗 大 量 的 栈 空 间 。 
首先 是 问题 1。 因 为 是 简单 实现 的 标记 -清除 算法 ， 所 以 在 进行 标记 - 清除 时 会 完 
全 停止 主 程序 的 运行 ( crowbar 也 是 如 此 )。 为 了 避免 ( 减轻 ) 这 个 问题 ， 大 概 有 以 下 
两 种 方法 。 
e 让 GC 和 主 程序 异步 ( 并 行 ) 执行 
e@ 使 用 分 代 式 GC 技术 











名 











为 是 最 简单 的 实现 ， 所 以 还 存 
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如 果 让 GC 和 主 程序 异步 ( 并 行 ) 执行 ， 虽然 GC 占用 CPU 的 总 耗 时 不 变 ， 但 是 
可 以 避免 程序 停止 的 情况 ， 这 对 于 一 个 互动 程序 来 说 是 非常 重要 的 。 但 是 ， 实 际 上 GC 
在 异步 执行 时 ， 肯 定 会 发 生 当 GC 标记 对 象 时 ， 主 程序 中 的 对 象 引 用 关系 同时 发 生 改 变 
的 情况 ， 这 样 一 来 有 些 对 象 就 可 能 被 遗漏 ， 没 有 打上 标记 。 和 避免 这 种 情况 的 方法 是 有 的 
( 请 用 “write barrier” 等 词 搜索 一 下 )， 但 是 实现 起 来 有 点 难度 。 

分 代 式 的 GC 技术 基于 “经 过 一 段 时 间 后 依然 存活 的 对 象 有 可 能 一 直 存 活 下 去 ”的 
经 验 ， 将 对 象 分 为 不 同 世 代 进 行 管理 。 经 过 一 段 时 间 后 依然 被 引用 的 对 象 ， 被 当做 “ 老 
年 代 ” 处 理 ， 对 于 老年 代 的 对 象 ，GC 执行 得 不 会 很 频繁 。 

比如 需要 编辑 一 个 很 大 的 文本 时 ， 实 际 需要 编辑 的 内 容 只 是 全 文 的 一 小 部 分 ， 但 
是 在 简单 实现 的 GC 中 ， 却 要 对 全 部 文本 进行 标记 ， 这 样 会 做 很 多 无 用 功 。 而 分 代 式 
的 GC 避免 了 这 样 的 无 用 功 ， 缩 短 了 对 于 GC 来 说 很 重要 的 时 间 ， 提 高 了 总 体 的 处 理 
速度 。 
问题 是 ， 从 新 生 代 的 对 象 向 老年 代 对 象 转变 的 过 程 中 ， 在 取消 新 生 代 对 象 的 标记 ， 
又 没有 标记 为 老年 代 时 ， 就 发 生 了 漏 标 记 的 情况 。 这 当然 是 不 允许 的 ， 必 须要 有 对 策 。 

下 面 我 们 再 来 看 标记 -清除 的 第 二 个 问题 ， 即 进行 标记 ( mark ) 时 的 递归 调 
用 会 消耗 大 量 的 栈 空 间 。 明 明 是 因为 内 存 不 足 才 启 动 的 GC， 但 是 GC 又 消耗 了 大 量 的 
栈 空 间 ， 这 让 人 有 种 本 末 倒 置 的 感觉 。 数 据 结构 决定 了 到 底 要 消耗 多 少 栈 空 间 ， 像 “将 
巨大 的 文件 全 部 读 入 链表 中 ， 再 进行 一 些 处 理 ”的 程序 ， 可 想 而 知 是 很 简单 的 ( 特别 是 
更 用 脚本 语言 来 做 )。 大 量 的 小 对 象 链接 构成 链表 ， 再 递归 进行 标记 ， 光 是 对 象 的 数量 
就 足以 占用 大 量 的 栈 空间 了 。 

我 们 使 用 称 为 链接 反 转 法 的 思考 方式 来 避免 这 个 问题 。 在 标记 对 象 时 ， 为 了 方便 
递归 ， 以 及 在 一 个 对 象 标记 结束 后 能 够 更 容易 返回 到 持 有 它 的 对 象 ， 我 们 在 栈 中 使 用 
己 部 变量 来 记录 已 经 处 理 了 对 象 中 的 哪个 引用 。 和 链接 反 转 法 用 下 面 的 方法 实现 在 对 象 
内 的 记录 。 

e 按 照 对 象 A 一 对 象 B 的 顺序 地 标记 ， 在 移动 到 下 一 个 对 象 C 时 ， 将 对 象 B 中 指 

向 C 的 引用 指向 A。 

e 每 个 对 象 都 要 增加 成 员 “ 已 经 处 理 了 哪个 引用 ”。 


补充 知识 Copying GC 


Copying GC 是 一 种 已 知 的 ( 经 典 的 ) 垃圾 回收 器 实现 方法 。 Copying GC 有 以 下 
策略 ( 如 图 4-10 )。 
e 一 开始 就 创建 一 个 大 的 堆 区 域 ， 并 将 它 一 分 为 二 。 
e@ 创建 对 象 的 时 候 ， 从 其 中 一 半 的 区 域 划 分 出 内 存 投入 使 用 。 
e 当 另 一 半 区 域 被 装 满 时 ,使 用 和 标记 - 清除 的 标注 阶段 相同 的 方式 跟踪 对 象 ， 
只 将 生存 的 对 象 复制 到 另 一 半 区 域 中 即 可 。 此 时 ， 由 于 对 和 象 的 地 址 发 生 了 变化 ， 
因此 需要 维护 指向 它们 的 所 有 指针 。 
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e 复制 之 后 ， 将 对 象 复制 的 目标 区 域 切换 为 创建 对 象 时 使 用 的 区 域 。 当 这 半边 区 域 
被 装 满 时 ， 再 向 另 一 半 区 域 复制 ， 如 此 循环 往复 。 








CR 
() SP) 
7 


把 存活 的 对 象 转移 移动 的 同时 ， 对 象 被 整理 得 
到 这 边 的 区 域 更 为 紧凑 



























































这 个 方法 一 目 了 然 ， 它 把 最 初 的 内 存 区 域 一 分 为 二 ， 在 一 个 时 间 点 只 使 用 其 中 的 
半 ， 另 外 一 半 内 存 就 浪费 了 。 
看 上 去 好 像 是 一 个 效率 极 差 的 方法 ， 但 是 这 个 方法 和 标记 - 清除 的 GC 术 













































































比 有 以 下 








CD 








e 复 制 对 象 的 同时 进行 压缩 ( compaction )， 由 此 ， 消 除了 碎片 (fragmentation )， 

提高 了 虚拟 内 存 和 高 速 缓存 的 效率 。 

e 舍弃 了 标记 - 清除 的 清除 过 程 ， 因 此 ， 在 生存 对 和 象 占 比 较 小 的 情况 下 效率 较 高 。 

碎片 是 指 像 malloc () 这 样 的 函数 多 次 对 内 存 进 行 申 请 /释放 的 时 候 ， 内 存 如 医 
4-11 所 示 ， 出 现 极 小 且 不 连续 的 空间 的 状态 。 





























































































































像 这 么 小 的 区 域 实际 上 并 不 能 使 [| 使用 的 区 域 
[| 未 使 用 的 区 域 
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这 样 一 来 ， 对 象 之 间 存 在 间隙 的 内 存 区 域 实际 上 是 不 能 使 用 的 ， 这 就 造成 了 内 存 的 













































































| 浪费 *。 

除 这些 没 用 的 间隙 ， | 是 让 证 尼姑 让 人 让 让 生活 、 个 
把 对 象 存储 空间 变 紧凑 | Copying GC 在 复制 的 时 候 将 这 些 间 孙 消除。 另外， 一边 追溯 指针 一 边 复制 的 方式 
的 扣 作 中 作 精 简 (com- 使 得 相互 指向 的 对 象 很 可 能 被 复制 到 临近 的 区 域 。 因 此 ， 同 时 使 用 的 对 象 也 很 有 可 能 被 

t | > 六 
ee | 放 在 一 起 ， 并 写 到 虚拟 内 存 的 同一 页 中 以 减少 翻 页 的 几率 ， 提 升 了 性 能 。 


























区 区 其 他 修改 


接 下 来 要 介绍 的 是 crowbar ver.0.2 中 除了 GC 之 外 的 其 他 需要 修改 的 地 方 。 








修改 语法 


对 语法 作 了 如 下 修改 。 

e 数组 一 一 表达 式 之 后 可 以 加 [ 表达 式 ]。 

e@ 方法 调用 一 一 表达 式 后 面 可 以 加 方法 名 ( 参数 列表 )。 

e 自 增 / 自 减 一 一 表达 式 后 面 可 以 加 ++ 或 --。 

增加 了 很 多 可 以 追加 在 表达 式 后 面 的 语法 。 在 语法 结构 上 引入 了 非 终 结 
符 postfix expression( 这 个 名 字 是 从 K&R 的 附录 C 中 得 来 的 )。 


unary expression 


































































































ost ession 
| SUB unary expression 


ESSEEEESOESSSTIGn 
: primary expression 
/* 引用 数组 元 素 。LB 和 RB 是 “[” 和 “]”*/ 

eosinexoresslon ne xoresslion ee 

/* 调用 方法 */ 

postfix expression DOT IDENTIFIER LP argument list RP 

Postfix expression DOT TDENTIFTIER LP RP 

/* 自 增 ， 自 减 */ 


postfix expression INCREMENT 




































































postfix expression DECREMENT 





句柄 LB 和 RB 是 Left Bracket 和 Right Bracket 的 简写 ， 分别 代表 “[” 和 


66] 37? 
] 。 
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根据 这 个 语法 结构 创建 的 结构 体 如 下 所 示 (crowbarh )。 因 为 都 是 表达 式 ， 
所 以 都 加 入 到 了 Expression 结构 体 的 联合 体 中 。 


/* 引用 数组 元 素 */ 
typedef struct { 


























ED Een era 
Expression *index; 
} IndexExpression; 








/* 自 增 / 自 减 */ 
typedef struct { 




















SEE openane, 
} IncrementOrDecrement.; 

















/* 调用 方法 */ 
typedef struct { 





Expression SDE on 
char *identifier; 
ArgumentList samenmerne 


} MethodCallExpression; 


4.4.2 方法 的 模拟 


crowbar ver.0.2 的 数组 配备 了 下 面 这 些 “ 像 方法 一 样 的 函数 ”。 


# 给 数组 增加 元 素 
a.add (3); 








# 取得 数组 的 大 小 


size = a.size();，; 





# 改变 数组 的 大 小 


a.resize (10); 


另外 ,( 顺便 ) 也 给 字符 串 添加 了 方法 。 
# 取得 字符 串 的 长 度 
len = "abc".length(); 
之 所 以 说 起 方法 的 “模拟 ”"， 是 因为 现在 在 crowbar 中 还 没有 为 类 型 ( 或 者 对 
象 ) 分 配方 法 的 通用 手段 。book ver0.2 的 实现 虽说 属于 偷工减料 ， 但 也 算是 用 
了 般 入 代码 的 方式 。( 截取 自 evalc， 见 代码 请 单 4-6。) 
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收 器 














代码 清单 4-6 
eval_method_call_ex— 
pression() 




















static void 


eval method call expression(CRB Interpreter *inter, CRB LocalEnvironment *enyv, 


Expression *expr) 


CRB. Value: *Left:; 

CRB Value result; 

CRB Boolean error flag = CRB FALSE; 

eval expression(inter, env, expr->u.method call expression.expression); 
left = peek stack (inter; 0); 


if (left->type == CRB ARRAY VALUE) { 
if (!strcmp (expr->u.method call expression.identifier, "add")) { 
CRB Value *add; 
check method argument count (expr->line number, 
expr->u.method call expression 
.argument, 1); 
eval expression(inter, enyv, 
expr->u.method call expression.argument 
->expression); 
add = peek stack (inter, 0); 
crb array add(inter, left->u.object, *add); 
pop_ value (inter); 
result.type = CRB_ NULL VALUE; 
} else if (!strcmp(expr->u.method call expression.identifier, 
ngize"™)y). 4 
check method argument count (expr->line number, 
expr->u.method call expression 
.argument, 0); 
result.type = CRB_INT VALUE; 


result.u.int value = left->u.object->u.array.size; 
} else if (!strcmp (expr->u.method call expression.identifier, 
"resize")) { 


CRB Value new size; 
check method argument count (expr->line number, 
expr->u.method call expression 
.argument, 1); 
eval expression(inter, enyv, 
expr->u.method call expression.argument 
->expression); 
new_size = pop value (inter); 
if (new size.type != CRB INT VALUE) { 
crb runtime error (expr->line number, 
ARRAY RESIZE ARGUMENT ERR, 
MESSAGE ARGUMENT END); 
} 
crb array resize(inter, left->u.object, new size.u.int value); 
result.type = CRB_ NULL VALUE; 
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} else { 
error flag = CRB_ TRUE; 
} 
} else if (left->type == CRB STRING VALUE) { 
if (!strcmp (expr->u.method call expression.identifier, "length")) { 


check method argument count (expr->line number, 
expr->u.method call expression 
.argument, 0); 
result.type = CRB_INT VALUE; 
result.u.int value = strlen(left->u.object->u.string.string); 
} else { 
error flag = CRB TRUE; 
} 
} else { 
error flag = CRB TRUE; 


if(error flag) { 
crb runtime error(expr->line number, NO_ SUCH METHOD ERR, 
STRING MESSAGE ARGUMENT, "method name", 
expr->u,method call expression.identifier, 
MESSAGE ARGUMENT END); 





} 


pop value (inter); 
push value (inter, &result); 











说 点 题 外 话 ， 最 初 在 获取 数组 元 素数 的 时 候 使 用 的 是 get_size () ， 作 为 一 
个 getter 方法 ， 为 了 统一 性 着 想 ， 取 名 时 应 为 get_xxx() 的 形式 。 但 是 ， 考 虑 
到 这 个 方法 使 用 频繁 ， 并 且 经 常 要 放 在 for 语句 中 使 用 ,方法 的 名 字 如 果 太 长 使 
用 起 来 不 太 方便 ， 因 此 还 是 取 名 为 size () 了 。 

我 常常 在 想 ， 虽 然 统一 性 很 重要 ， 但 是 方便 性 一 样 重要 。 不 论 是 制作 语言 还 
是 程序 库 ， 要 想 兼顾 这 两 个 方面 还 真是 不 容易 。 

不 过 ， 取 得 数组 大 小 为 什么 不 用 方法 ， 而 只 用 了 length ?7 取 字 符 串 长 
度 时 用 的 是 Ilength() ， 而 Vector 和 ArrayList 这 样 取 大 小 的 为 什么 用 的 
是 size() 呢 ? 我 想 这 只 是 为 了 与 之 前 的 内 容 兼 顾 而 产生 的 不 统一 


4.4.3 | 左 值 的 处 理 


在 一 般 的 表达 式 中 ， 一 个 变量 表示 该 变量 储存 的 值 。 比 如 ， 将 5 赋值 给 a 
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当 表 达 式 中 的 a 替换 为 5 时 表达 式 的 结果 保持 不 变 。 但 是 ， 变 量 在 赋值 的 左边 
时 ， 此 时 将 


是 行 不 通 的。 总 之 ， 变 量 在 赋值 语句 的 左边 时 ， 变 量 代表 的 不 是 它 储 存 的 值 ， 而 
ee 量 的 内 存 地 址 )， 我 们 称 其 为 左 值 (left value )。 

book_ver.0.1 中 ， 赋 值 语 句 的 左边 只 能 放 变 量 。 赋 值 语 句 的 语法 规则 如 下 
所 示 。 


expression 
: IDENTIFIER ASSIGN expression 








但 是 在 引入 了 数组 之 后 ， 赋 值 语 名 的 左边 就 可 以 写 稍微 复杂 一 点 的 表达 
式 了 < 


人 二 维 数组 a 赋值 ， 其 中 一 个 下 标 为 以 b [i] 为 参数 
# 调用 函数 func () 后 的 返回 值 

































































cE vmero 

当然 ,使 用 老 的 语法 结构 不 能 对 应 这 种 情况 ， 于 是 ， 我 们 将 语法 结构 改写 成 
下 面 这 样 。 

expressom 


EoseEisYex essionAsTneN ee 


边 变 成 了 postfix expression， 而 现在 能 成 为 赋值 语句 对 象 的 ， 
0 expression (变量 名 ) 和 postfix expression (数组 元 
素 ) 了 。 
接着 ， 在 eval.c 中 首先 计算 右边 的 值 ， 然 后 调用 get _lvalue () 函数 取得 
左边 表达 式 的 地 址 ， 详 见 代码 清单 4-7。 并 且 ， 这 里 调用 的 peek_stack() 也 
We et 0 这 样 一 来 右边 的 值 会 作为 赋值 表达 式 整 体 的 














代码 清单 4-7 static void 
eval_assign_ eval assign expression (CRB Interpreter *inter, CRB LocalEnvironment *eny, 
expressIion 





Expression *left, Expression *expression) 
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代码 清单 4-8 
get_lvalue() 


代码 清单 4-9 
get_array_element_ 
lvalue() 
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CRB Value *src; 
CRB Value *dest; 





/* 首先 计算 右边 值 */ 


eval expression(inter, env, expression); 























Sre = Peek stack (Inter; OO) 7 


/* 取得 左边 的 地 址 */ 
dest := get lvalue(inter,; env; left); 
*dest = *src; 














那么 ，eval assign expression() 中 调用 的 函数 get _1value () 又 是 
什么 样子 呢 ? 请 见 代 码 清单 4-8。 将 标识 符 和 数组 分 开 处 理 ， 如 果 是 数组 的 话 ， 
可 以 利用 get _array_element _ lvalue () ( 见 代码 清单 4-9 ) 函数 返回 数组 元 
素 对 应 的 地 址 。 


CRB Value * 
get lvalue (CRB Interpreter *inter, CRB LocalEnvironment *enyv, 




















Expression *expr) 











CRB Value *dest; 
if (expr->type == IDENTIFIER EXPRESSION) { 

dest = get identifier lvalue(inter, env, expr->u.identifier); 
} else if (expr->type == INDEX EXPRESSION) { 

dest = get array element lvalue (inter, env, expr); 
} else { 

crb runtime error(expr->line number, NOT LVALUE ERR, 

MESSAGE ARGUMENT END ) ; 

return dest; 


CRB Value array; 
CRB Value index; 


/* 运算 [] 左边 的 表达 式 */ 

eval expression(inter, env, expr->u.index expression.array); 
/* 运算 [] 中 的 表达 式 */ 

eval expression(inter, env, expr->u.index expression.index); 
/* 取得 两 个 变量 的 值 */ 


index = pop value (inter); 





array = pop value (inter); 
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/* 检查 数据 类 型 */ 
if (array.type != CRB _ ARRAY VALUE) { 
crb runtime error(expr->line number, INDEX OPERAND NOT ARRAY ERR, 
MESSAGE ARGUMENT END); 





if (index.type != CRB INT VALUE) { 
crb runtime error (expr->line number, INDEX OPERAND NOT INT ERR, 
MESSAGE ARGUMENT END); 














/* 检查 下 标 范围 */ 


if (index.u.int value < 0 





El 





|| index.u.int value >= array.u.objext->u.array.size) { 
crb runtime error(expr->line number, ARRAY INDEX OUT OF BOUNDS ERR, 
INT MESSAGE ARGUMENT, 
"size", array.u.object->u.array.size, 
INT MESSAGE ARGUMENT, "index”, index.u.int value, 
MESSAGE ARGUMENT END); 








} 
/* 返回 地 址 */ 


return &array.u.object->u.array.array [index.u.int valuel]; 























另外， 在 没有 左 值 的 情况 下 ， 取 得 数组 元 素 值 的 引用 时 调用 的 函数 eval_ 
index expression()， 它 的 内 部 也 使 用 了 get array element lvalue()。 


statie void 
Eames nen en ee 


CRB LocalEnvironment *env, Expression *expr) 
EREDVeunee leE te 


left = get array element lvalue (inter, env, expr); 





Pushealue lmneern leteD 





I 隐 


自 增 / 自 减 运算 符 也 同样 适用 于 使 用 get_lvalue () 获取 目标 变量 的 地 址 。 


4.4.4 | 创建 数组 和 原生 函数 的 书写 方法 


前 面 已 经 说 过 ， 用 字面 量 可 以 创建 数组 {1，2，3}， 用 原生 函数 new_ 
array() 也 可 以 。 读 原 生 函数 的 定义 请 见 代码 清 音 4-10。 
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代码 清单 4-10 /* 递归 调用 子 例 程 */ 
new_array() CRB_ Value 


Dew_atrtay_SuUb (CRB Interpreter *inter, CRB LocalEnvironment *enyv, 























int arg count, CRB Value *args, int arg idx) 


CRB: Value: ‘ret 
int size; 
业 丽 多 生 改 


if (args[arg idx] .type != CRB INT VALUE) { 
crg runtime error(0, NEW ARRAY ARGUMENT TYPE ERR, 
MESSAGE ARGUMENT END); 





} 


size = argsl[larg idx] .u.int value; 


ret.type = CRB ARRAY VALUE; 


ret object = CRB create array (inter, env, size); 
if (arg idx == arg count-1) { 
for (i = 0; i < size; i++) { 


ret.u.object->u.array.array [li] .type = CRB_ NULL VALUE; 


} 


} else { 
for (i = 0; i < size; i++) { 
ret.u.object->u.array.array [i] 
= new array sub(inter, env, arg count, args, arg idx+1); 


return ret,; 





/* 原生 函数 本 体 */ 

CRB Value 

crb nv new array proc(CRB Interpreter *interpreter, 
CRB LocalEnvironment *env, 
int arg count, CRB Value *args) 


CRB Value value; 
了 和 (arg Count < 工 ) 并 


crb runtime error(0, ARGUMENT TOO FEW_ ERR, 
MESSAGE ARGUMENT END); 


value = new array subl(interpreter, env, arg count, args, 0); 
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return value; 


} 
首先 ， 这 次 的 修改 在 原生 函数 的 参数 中 增加 了 CRB_LocalEnvironment。 
上 面 代码 中 的 处 理 只 是 递归 地 创建 了 数组 的 数组 ， 数 组 所 需 内 存 空间 的 
开辟 工作 由 CRB_create_array() 完成 。 同 时 还 为 原生 函数 增加 了 形式 参 
数 ， 从 而 使 CRB_LocalEnvironment 可 以 作为 参数 传递 进去 。 那 么 ，CRB_ 
LocalEnvironment 的 用 途 是 什么 呢 ? 在 创建 多 维 数组 的 时 候 ， 会 多 次 调 
用 new array_sub() 开辟 内 存 空间 。 如 果 GC 在 进行 上 述 操作 的 中 途 启动 的 
话 ， 就 可 能 立刻 释放 掉 刚 分 配 好 的 数组 。 因 此 ， 为 了 把 在 函数 中 创建 的 对 象 标记 
为 不 回收 ， 我 们 需要 把 CRB_LocalEnvironment 传递 到 函数 中 。 
具体 来 说 , CRB_LocalEnvironment 的 成 员 ref_in_native_method 中 
保存 了 在 原生 函数 中 创建 的 对 象 ( 具体 请 参考 4.2.4 节 的 定义 )。 
类 型 RefInNativeFunc 的 定义 如 下 ， 它 以 链表 的 形式 保存 着 指向 对 象 的 
数组 。 


typedef struct RefInNativeFunc tag { 
CREEOEJEecEEcbjecE 
SEEUEE RefInNativeFunc tag “Tet 





























} RefInNativeFunc; 

这 种 设计 的 问题 在 于 ,创建 于 原生 函数 内 部 的 对 象 在 函数 结束 前 不 能 被 释 
放 。 如 果 在 原生 函数 中 存在 大 量 多 次 循环 时 ， 就 会 出 现 很 多 对 象 在 创建 后 立即 被 
丢弃 的 现象 。 有 些 对 象 在 函数 结束 前 不 能 被 释放 ， 造 成 了 内 存 空间 的 浪费 。 但 
是 ， 如 果 只 是 在 原生 函数 内 部 使 用 的 对 象 ， 那 么 比 起 使 用 麻烦 的 crowbar 对 象 ， 
使 用 C 的 malloc() 更 方便 。 因此， 实际 情况 下 像 上 面 那 样 的 问题 并 不 多 见 ， 
所 以 还 是 维持 了 这 样 的 设计 。 


4.4.5 修改 原生 指针 类 型 


crowbar book ver0.1 的 原生 指针 类 型 的 值 (CRB_ Value 结构 体 ) 中 包含 
了 voidax 的 指针 和 数据 类 型 的 标识 信息 。 在 3.3.9 节 中 提 到 过 ， 这 个 方法 在 “一 
个 地 方 用 fclose () 关闭 了 文件 指针 ， 可 能 还 会 在 另 一 个 地 方 被 使 用 ”的 情况 下 





















































图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


图 4- 
原生 指针 的 构造 ( 修 
改版 ) 
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会 存在 问题 。 
在 book_ver.0.2 中 ， 原 后 指针 类 型 的 值 不 再 指向 实际 的 原生 对 象 (FILE 结构 
体 等 )， 而 是 在 中 间 加 入 了 一 个 crowbar 对 象 进行 “隔离 ”( 如 图 4-12 )。 


原生 指针 类 型 的 变量 
CRB_ Object 


FILE 结构 体 等 的 对 象 

运用 上 面 的 方法 ， 例 如 在 调用 fclose () 的 时 候 ， 将 CRB_object 中 指向 
原生 对 象 的 指针 同时 置 为 NULL， 就 能 够 立刻 判断 出 文件 已 被 关闭 。 也 许 有 人 会 
想 ， 在 以 前 的 做 法 中 ,没有 将 CRB_Value 直接 指向 FILE 结构 体 ， 而 是 在 它们 
中 间 夹 了 一 个 别 的 结构 体 ， 不 是 也 起 到 同样 的 作用 了 吗 ? 假设 真 的 这 么 做 了 ， 那 
么 在 对 这 个 结构 体 进行 free () 的 时 机 就 又 成 了 一 个 问题 。 何 不 借 着 实现 GC 的 
机 会 ， 让 它们 中 间 夹 一 个 可 以 作为 GC 目标 的 对 象 呢 ? 

顺便 说 一 下 ,虽然 这 样 一 来 就 可 以 实现 针对 原生 指针 类 型 的 终结 器 ( finalizer ) 
了 【( GC 在 释放 原生 指针 类 型 的 对 象 时 调用 之 前 注册 的 函数 就 可 以 了 ), 但 是 由 于 
标记 - 清除 型 的 GC 中 终结 器 “ 不 知 何 时 启动 ">， 因 此 使 用 crowbar 的 用 户 最 好 不 
要 编写 依赖 于 终结 需 的 程序 。 但 是 对 于 一 门 编程 语言 来 说 ， 提 供 终结 器 也 不 是 什 
么 坏事 。 
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2 四 中 文 支持 策略 和 基础 知识 


在 第 4 章 中 提 到 的 crowbar 是 不 支持 中 文 的 。 一 个 标榜 着 像 Perl 一 样 的 语言 ， 
怎么 可 以 不 能 正确 处 理 含 有 本 地 语 的 中 文 文本 文件 呢 ? 本 章 开 始 ， 我 们 就 来 看 一 
看 汉化 的 处 理 方式 。 


5.1.1 现存 问题 


看 了 “crowbar 是 不 支持 中 文 的 ”这 人 句 话 后 ， 肯 定 有 人 会 问 :“ 这 是 真 的 吗 ?” 
举 个 例子 吧 。 
Bele “MR a ) 

这 行 代 码 在 大 多 数 环境 下 应 该 可 以 正常 运行 。 但 crowbar 处 理 器 其 实 并 没有 
意识 到 字符 编码 的 问题 ， 只 不 过 是 直接 输出 了 一 个 含有 字符 串 字 面 量 的 字 节 序 
列 ， 根 本 不 能 说 它 支 持 中 文 。 具 体 有 以 下 这 些 问题 。 

1. GB2312 环境 下 的 0x5C 问题 

现在 的 crowbar 代码 是 采用 GB2312 编码 保存 的 ， 因 此 可 能 会 因为 特殊 字符 
而 引起 误 动 作 。 具 体 来 说 就 像 中 文 的 “ 涩 ”和 “了 师 ”。 

比如 ,“ 晒 ”的 GB2312 编码 是 0x955C。 第 二 个 字 节 的 SC， 是 反 斜 杠 的 编 
人 码 ， 这 会 导致 字符 串 字面 量 “ 师 ”被 编码 成 “"” 和 ”组 成 的 字符 串 。 这 里 只 
是 在 说 字符 串 字 面 量 的 话题 ，crowbar 程序 在 读 取 来 自 外 部 文件 和 标准 输入 的 字 
符 串 时 不 会 受到 影响 。 


2. length() 方法 

我 们 在 crowbar book ver.0.2 中 为 字符 串 引 入 了 length() 方法 。 现 在 的 
这 个 函数 在 执行 代码 " 北京 欢迎 您 ". Length() 时 会 返回 10。 这 种 设计 与 C 
的 strlen() 相同 ， 但 这 样 的 设计 在 crowbar 中 几乎 派 不 上 用 场 。 “北京 欢迎 您 ” 
是 5 个 字 ， 调 用 length() 函数 就 应 该 返回 5 才 对 (在 C 语言 中 ， 很 多 情况 下 
要 有 很 强 的 “ 字 节 数 ”意识 ， 因 此 strlen () 的 设计 不 得 不 说 还 是 挺 方便 的 )。 

现在 的 crowbar 中 ， 字 符 串 只 有 Length () 方法 ， 今 后 还 要 引入 截取 字符 串 
的 substr() 等 方法 ， 在 那个 时 候 这 个 问题 就 更 为 重要 了 。 
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EUC-CN 是 GB2312 最 
常用 的 表示 方法 。 浏 览 
器 编码 表 上 的 GB2312， 
通常 都 是 指 EUC-CN 
表示 法 。 


























为 什么 不 是 取出 第 i 个 
字符 呢 ? 因为 C 的 数组 
下 标 从 0 开始 。 
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既然 现在 crowbar 的 实现 有 以 上 的 问题 ， 那 怎么 解决 好 呢 ? 想 要 考虑 清楚 这 
个 问题 ， 需 要 很 多 基础 知识 。 下 面 我 们 就 对 以 下 几 项 进行 简单 说 明 。 


区 可 宽 字 符 ( 双 字 节 ) 串 和 多 字 节 字符 串 


宽 字符 ( wide character ) 和 多 字 节 字符 ( multibyte character ) 的 说 法 源 于 C 
语言 的 用 语 。 

多 数 人 在 编写 C 语 言 程序 的 时 候 使 用 char 数组 来 表示 字符 串 。 可 
是 ，char 只 能 存储 1 个 字 节 【通常 是 8 位 )， 存 不 下 一 个 中 文 的 字符 。 因 此 ， 中 
文字 符 的 存储 都 是 使 用 GB2312 (EUC， 即 扩展 UNIX 编码 ，Expanded UNIX 
code ) *、GBK、UTF-8 等 编码 。 这 种 用 多 个 字 节 保存 一 个 字符 的 字符 串 形式 称 
为 多 字 节 字符 串 。 

但 是 ， 这 种 保存 方式 存在 一 个 问题 ， 即 不 从 char 数组 的 开头 开始 看 ， 就 找 
不 到 哪里 是 字符 的 分 割 点 。C 语言 使 用 str [i] 获取 字符 串 中 一 个 字符 时 ， 也 不 
知道 要 取 的 是 一 个 英文 数字 字符 还 是 中 文字 符 的 第 一 个 字 节 或 第 二 个 字 节 。 在 这 
种 情况 下 ， 如 果 要 制作 一 个 编辑 需 ， 在 按 退 格 (backspace ) 键 的 时 候 ， 如 果 只 
是 删除 了 中 文字 符 的 第 二 个 字 节 ， 那 么 后 面 跟 着 的 内 容 就 全 都 变 成 乱码 了 。 实 际 
上 ， 以 前 的 很 多 编辑 器 都 有 这 个 问题 。 

GB2312 的 0x5C 问题 大 概 也 是 这 个 原因 。 如 果 只 看 一 个 中 文字 符 的 第 二 个 
字 节 ， 就 会 被 误 认 为 是 “\”。 

只 保存 8 位 的 char 类 型 显然 不 能 满足 需求 ， 要 是 有 一 个 内 存 空 间 足 够 的 类 
型 用 来 保存 中 文 等 字符 就 好 了 。C 语言 中 的 wchar_t 类 型 ， 就 是 一 个 有 足够 内 
存 空间 的 类 型 (或 者 说 是 我 们 期 望 的 类 型 )。 

以 wchar 上 数组 表示 一 个 字符 串 的 方式 叫 作 宽 字 符 串 。 正 如 我 们 期 待 
的 ，str [i] 可 以 取出 这 个 字符 串 中 第 过 1 个 字符 *。 

在 C 语 言 的 标准 中 ， 并 没有 规定 wchar t 到 底 是 几 个 字 节 ,以 及 wchar 七 在 
存储 文字 时 用 什么 编码 格式 。 在 基于 UNIX 的 gcc 中 执行 sizeof (wchar t) 的 
话 返 回 4， 在 Windows (MinGW 的 gcc 或 VC++ 等 ) 中 返回 2。 男 外 ,在 C 代 
码 中 如 果 想 要 定义 宽 字 符 和 宽 字 符 串 的 话 ， 宽 字符 使 用 L'a'， 宽 字符 串 使 
用 L"abc"。 
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宽 字 符 串 L"abc" 在 wchar 上 是 4 字 节 的 环境 中 ,需要 消耗 16 字 节 的 内 存 空 
间 〈 最 后 的 Null 字符 也 是 4 个 字 节 )。 我 们 暂且 不 说 这 种 存储 方式 进行 类 型 转换 
的 时 候 会 发 生 编 译 错误 ， 存 储 在 内 存 上 的 L"abc"， 以 字 节 为 单位 去 看 的 话 中 间 
可 能 会 出 现 很 多 0， 会 被 误 判 为 字符 串 末尾 的 Null 字符 。 因 此 ， 宽 字符 串 不 能 使 
用 strcpy() 和 strcmp() 之 类 的 函数 ， 必 须要 用 wcscpy () 代替 strcpy () ， 
用 wcscmp () 代替 strcmp () 。 


补充 知识 。 wchar_t 肯定 能 表示 1 个 字符 吗 ? 


我 们 在 5.1.2 节 中 说 到 ，wchar_t 类 型 有 足够 的 内 存 空间 保存 中 文 等 字符 ( 或 者 
说 是 我 们 想 要 的 类 型 )。 可 能 会 有 人 不 满意 这 种 模棱两可 的 说 法 ， 那 么 就 让 我 们 来 确认 
下 C 语言 标准 中 的 定义 吧 。 
在 10S C99 (1SO/9899:1999) 中 关于 wchar t 的 最 小 内 存 空间 记载 如 下 
( 7.18.3 ) : 


wchar_t ( 参考 7.17 节 ) 用 带 符号 整数 类 型 定义 的 情况 下 , WCHAR_MIN 的 值 
不 得 小 于 -127，WcHAR MAX 的 值 不 得 大 于 127。 

wchar _t 用 无 符号 整数 类 型 定义 的 情况 下 ,WCHAR MIN 的 值 必须 是 
0，WCHAR MAX 的 值 不 得 大 于 255。 























































































































WCHAR _MIN 和 WCHAR _MAX, 顾名思义 是 wchar_t 最 大 值 和 最 小 值 的 常量 。 总 之 ， 
在 标准 中 保证 了 wchar_t 的 大 小 只 有 1 个 字 节 ,但 是 从 wchar_t 的 定义 本 身 来 看 ， 
规定 如 下 : 
wchar t 值 的 范围 要 能 够 容纳 处 理 器 所 支持 的 区 域 设置 中 最 大 的 扩展 字符 集 
( 包含 全 部 编码 要 素 的 整数 类 型 )。 


至 少 在 我 看 来 这 句 话 的 意思 是 ，wchar_t 的 大 小 必须 能 存 下 所 支持 字符 集 的 任何 



































































































































但 是 ， 实 际 上 Windows 的 wchar_t 只 有 两 个 字 节 ， 所 以 不 能 表示 超过 UCS2 范 
局 的 字符 。 因 此 ， 至 少 在 Windows 中 ，wchatr 七 类 型 不 能 表示 一 个 字符 ( 实际 上 
Windows 的 宽 字 符 串 是 UTF-16 )。 可 见 世 上 没有 最 理想 的 事 。 


5.1.3 多 字 节 字符 / 宽 字符 之 间 的 转换 函数 群 


字符 的 表示 方法 有 多 字 节 字符 和 宽 字 符 两 种 ， 具 体内 容 在 前 面 的 小 节 已 经 介 
绍 过 了 ， 相 信 大 家 也 应 该 清楚 了 它们 的 使 用 方法 。 
宽 字 符 串 把 字符 保存 在 wchar_t 中 , 因此 前 面 说 到 的 制作 编辑 器 、 为 字符 串 
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在 存储 容量 的 价格 方 
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添加 length() 和 substr() 方法 都 不 成 问题 。 可 是 , 像 英文 数字 这 种 平时 只 需 
要 ]1 个 字 节 表示 的 字符 ， 在 这 里 也 需要 占用 sizeof (wchar_t) 大 小 的 内 存 空 
间 了 。 

因此 ， 在 保存 文件 的 时 候 ， 不 推荐 使 用 宽 字 符 形式 。 宽 字符 是 C 语言 的 概 
念 ， 显 而 易 见 文件 和 编程 语言 是 独立 的 。 之 前 ,“ 用 同样 的 字 节 数 来 表示 所 有 的 
字符 ”这 种 想法 ， 在 编程 时 处 理 字符 串 是 很 方便 的 ， 但 是 作为 文件 处 理 方式 的 时 
候 就 不 再 占据 优势 了 ， 反 而 只 会 单纯 地 占用 容量 *。 于 是 ，crowbar 的 处 理 器 有 必 

































































， 考 虑 到 内 存 要 比 硬 
盘 贵 ， 节 约 内 存 空间 也 
是 理所当然 的 。 





























要 进行 如 下 的 变化 。 
e 从 文件 和 标准 输入 中 输入 字符 串 时 ， 从 多 字 节 字符 转换 为 宽 字符 。 
e 向 文件 和 标准 输出 中 输出 字符 串 时 ， 从 宽 字 符 转换 为 多 字 节 字符 。 
这 样 一 来 ， 现 在 的 状态 就 成 了 “在 crowbar 外 部 使 用 多 字 节 字符 ， 内 部 使 
用 宽 字 符 "。 在 C 语言 中 可 以 使 用 以 下 的 函数 群 进 行 转换 操作 。 这 些 函 数 是 以 
ISO C95 标准 进行 了 标准 化 的 函数 群 ， 这 些 函 数 不 仅 名 字 有 具有 标准 性 ， 十 分 好 
记 ， 详 细 的 设计 也 编 成 了 手册 可 在 线 阅读 。 在 这 里 ， 我 只 对 它们 的 基本 功能 进 
行 说 明 。 
图 多 字 节 字符 向 宽 字符 转换 
@ int mbtowc(wchar t *pwc, const char *s, size 七 n); 
从 多 字 节 字符 的 字 节 序列 中 读 取出 代表 一 个 字符 的 字 节 (最 大 n 字 方 )， 
将 转换 后 的 宽 字符 的 指针 保存 在 变量 pwc 中 。 功 能 和 名 字 一 样 ，mb ( 多 字 节 字 
符 ) 转换 为 wc ( 宽 字 符 )。 
@ Size 七 mbrtowc (wchar t *pwc, const char *s, size 七 n, mbstate t *ps) 
在 C 语言 的 规格 书 中 将 多 字 节 字符 定义 〈5.2.1.2 ) 为 “可 以 携带 依赖 于 转 
换 状态 的 表现 形式 ”。 
利用 换 码 序列 ( escape sequence ) 这 种 特殊 的 字 节 序列 进行 编码 间 的 切换 ， 
当 文 字 中 出 现 了 换 码 序列 时 ， 它 之 后 的 内 容 就 是 中 文 ， 而 在 中 文中 换 码 序列 之 
后 的 内 容 就 是 ASCII 字符 。 
用 这 种 方式 将 某 个 多 字 节 字符 转换 为 宽 字 符 时 ， 必 须要 知道 它 现在 是 什 
么 状态 。 
如 果 使 用 mptowc() 从 开头 对 多 字 节 字符 串 进行 处 理 的 话 ， 那么 
mbtowc () 会 在 内 部 记 住 当前 的 状态 ， 并 且 根 据 状态 转换 出 适当 的 宽 字 符 。 可 
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能 很 多 人 会 觉得 这 样 就 已 经 很 好 了 。 但 是 ， 如 果 这 段 使 用 了 mbtowc () 的 转 
es 一 个 多 线程 的 字符 串 处 理 时 ，mbtowc () 的 这 种 “ 记 状 态 ” 的 
机 制 就 被 破坏 了 。 

于 是 mbrtowc () 将 保存 当前 状态 的 内 存 空 间 交 给 了 调用 者 。 这 个 空间 的 
类 型 是 mbstate 七 。 在 最 初 调用 的 时 候 ,mbstate 上 上 可 以 使 用 memset () 等 
函数 进行 清 零 。 

函数 的 名 字 是 mbrtowc (), 中 间 加 了 一 个 上 <。 我 想 这 个 工 可 能 是 reentrant 
的 工 。 
































size t mbstowcs (wchar t *dest, const char *src, size t len) 

上 述 两 个 函数 是 用 来 转换 文字 的 ， 这 个 函数 可 以 将 整个 字符 串 一 起 处 理 。 
于 是 函数 名 字 在 mb 和 wc i so 

函数 将 多 字 方 字符 串 src 转换 为 宽 字 符 串 ， 字 符 最 大 为 n 字 节 ， 结 果 保 
存在 dest 指针 中 。 函 数 的 返回 值 会 返回 写 入 到 dest 的 宽 字 符 个 数 〈 不 包 
含 结尾 的 L'\0' )， 如 果 只 想 知道 宽 字 符 的 字符 个 数 的 话 ， 经 常 使 用 的 方法 是 
给 dest 传 NULL 并 获取 返回 值 。 



































size 七 mbsrtowcs (wchar t *dest, const char **src, size 七 len, 
mbstate 七 *ps) 


和 转换 单个 字符 的 函数 一 样 ， 加 上 上 就 变 成 了 reentrant 版 。src 变 成 了 
指针 的 指针 ， 是 因为 要 在 转换 过 程 中 将 src 移动 到 下 一 个 要 转换 的 多 字 节 的 
开关。 

宽 字符 向 多 字 节 字符 转换 
int wctomb (char *s, wchar t wc) 

可 见 ， 这 是 反 过 来 将 wc 转换 为 mb 的 函数 ， 也 就 是 将 一 个 宽 字 符 转换 为 
多 字 节 字符 的 字 节 序列 的 函数 。 
size 七 WCYLomb (char *s, wchar t wc，mbstate t *ps) 


加 上 工 就 是 reentrant 版 。 









































size t wcstomb (char *dest, const wchar t *src, size 七 n) 


加 上 s 就 是 字符 串 版 。 























这 样 做 是 为 了 对 应 多 线程 的 情况 。 一 一 译 者 注 
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@ Size t wcsrtombs(char *dest, const wchar 七 **src, size 七 len, 


的 是 Unicode。 作 为 crowbar 处 到 


mbstate 七 *ps) 


s 和 工 都 加 上 ， 变 成 了 





字符 串 版 的 reentrant 版 。 





为 了 能 够 使 用 这 些 函 数 ， 在 Windows ( MinGW ) 中 编译 时 必须 配置 启动 项 - 
JImsvcp60。 


， a | Unicode 











前 面 章 节 已 经 做 了 简要 说 明 ， 现 在 的 Linux 和 Windows 中 ， 宽 字符 大 多 使 用 








如 ， 如 果 想 要 制作 一 个 转换 宽 字 符 和 多 字 节 字 








符 的 程序 库 ， 可 以 不 用 考虑 实际 的 wchar_t 中 存储 的 字符 到 底 是 什 
但 是 ， 作 为 一 名 程序 员 是 不 能 回避 Unicode 问题 的 ， 所 以 本 章 将 对 此 


区 下 Unicode 的 历史 


本 、 
中 正 克 




















字 分 本 
在 中 国 ，GB2312 (EUC-CN ) 能 
Unicode 出 现 之 前 使 月 
， 考 虑 到 经 常 
18739 个 字 也 不 一 定 够 用 ， 更 何况 这 个 范围 


目 
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Unicode 是 由 Xerox 提出 ， 





么 
进 











字符 编码 。 
行 介绍 。 








并 由 Unicode Consortium 制定 的 字符 纤 
Unicode 最 初 的 内 容 是 “用 16 位 表示 全 世界 所 有 的 字符 "”， 所 以 ， 中 国 、 日 
韩国 使 用 的 汉字 只 要 字形 是 一 样 的 ， 都 会 分 配 到 同样 的 字符 细 











i 码 。 











(Unicode 











角 的 叫 法 应 该 是 码 位 ， 即 code point )。 截 止 到 1990 年 12 月 的 最 终 草 案 ， 汉 
a 了 0x4000~0xE7FF， 共 18739 个 字符 。 
示 的 汉字 总 共有 6763 字 ， 由 此 得 知 ， 在 
普通 PC 可 以 处 理 的 汉字 ， 全 部 可 以 用 Unicode 表示 。 但 





一 些 人 名 或 者 古 汉语 中 的 字符 无 法 用 国标 汉字 表示 ， 
内 还 包含 了 日 本 和 韩国 使 用 的 汉字 “。 





























因此 即使 是 





另外 ， 对 于 日 本 人 来 说 ， 假 名 等 分 配 了 0x3000~0x3FFF， 共 4096 个 字符 。 


假名 的 字符 很 
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Fs 


a 

















这 个 范围 已 经 足够 了 ,但 是 韩语 一 个 字符 的 形状 由 初 声 、 中 





(D 











有 时 候 ,， 三 个 








习 家 人 











用 的 汉字 即 人 





终 声 的 排列 组 合 决定 ， 初 声 19 种 ， 中 声 21 种 ， 终 声 27 种 ， 加 上 有 些 字符 











字形 相同 也 是 不 一 样 的 ， 
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此 分 配 了 不 同 的 码 位 。 一 一 译 者 注 
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1987 年 的 时 候 ， 韩 国 
国内 的 标准 KSC 5601 

















修订 版 中 韩 
2350 个 字符 ， 
期 的 Unicode 

















语 只 有 
同一 时 


已 经 包含 





没有 终 声 的 情况 ， 一 共有 19 x 21 x (27+ 1)= 11172 个 字符 外 。 这 么 多 字符 ， 
Unicode 当然 适应 不 了 了 *。 

如 此 一 来 ， 结 果 就 是 在 现 有 的 16 位 Unicode 上 进行 扩充 ( 现在 是 21 位 )， 以 
16 位 为 范围 收录 的 一 套 字 符 作 为 UCS2 (表示 Universal Coded-Character Set 的 2 
位 版 ) 进行 标准 化 ， 收 录 不 下 的 所 有 字符 以 4 字 节 表示 ， 这 就 是 UCS4。 


























了 这 些 字符 ， 如 果 是 日 

















常 使 用 的 话 ， 
Unicode 也 没 人 





ya 














16 位 的 
上 么 问题 。 





5.2.2 | Unicode 的 编码 方式 


如 前 所 述 ，Unicode 本 来 想 用 16 位 来 表示 世界 上 所 有 的 字符 (但 实际 上 收录 
不 下 )。 那么 ,在 内 存 和 磁盘 中 保存 字符 串 的 时 候 ， 只 能 2 字 节 一 组 表示 1 个 字 
符 吗 ? 也 不 一 定 。 

我 们 首先 介绍 一 下 字符 集 ( character set ) 和 编码 方式 ( 正确 的 说 法 应 该 是 字 
符 符号 化 方式 )。 

计算 机 想 要 处 理 字符 ， 首 先 要 决定 什么 样 的 字符 是 要 人 处理 的 对 象 ， 其 次 就 
是 为 这 些 字 符 分 配 编号 ， 这 就 是 字符 集 。 为 每 个 字符 分 配 的 编号 在 Unicode 中 称 
为 码 位 (code point )。 例 如 中 文 “ 啊 ”的 码 位 是 0x554A， 记 作 U+554A。 

但 是 ， 这 些 字 符 想 要 在 内 存 或 者 磁盘 上 表示 就 是 另外 一 码 事 了 。 编 码 方式 是 
指 规 定 以 何 种 方式 将 逻辑 上 的 码 位 值 以 字 节 或 位 的 方式 表示 出 来 。 虽然 很 可 能 
两 种 编码 方式 的 目标 字符 集 相 同 ， 但 因为 编码 方式 和 字符 在 字符 集中 的 顺序 不 
同 ， 因 此 在 内 存 上 的 表现 形式 也 不 同 。 

Unicode 的 编码 方式 首先 要 考虑 的 是 ，Unicode 是 16 位 的 ， 要 为 一 个 字符 分 
配 2 字 节 ， 这 种 方法 被 称 为 UTF-16 。 

但 是 ， 假 如 使 用 C 语言 中 2 字 节 的 整数 类 型 (short 等 ) 表示 1 个 字符 ， 内 
存 上 的 表示 方式 会 根据 环境 的 字 节 序 产生 变化 。 因 此 ，UTF-16 根据 字 节 序 的 不 
同 分 为 UTF-16BE ( 大 尾 序 ) 和 UTF-16LE (小 尾 序 ) 两 种 。 中 文 “ 啊 "， 用 UTF- 
16BE 表示 为 0xB0 0xA1l1， 用 UTF-16LE 表示 为 0xA1 0xB0。 另 外 ,在 和 其 他 
PC 通信 的 时 候 ， 如 果 不 知道 字 节 序 也 很 麻烦 。 可 以 在 UTF-16 的 字符 串 开 头 加 上 
字 节 序 的 标识 (这 种 标识 叫 作 BOM ， 即 Byte Order Mark， 值 为 U+FEFF )。 读 取 
带 BOM 的 UTF-16 字符 串 时 ， 如 果 第 一 个 字符 是 0xFE 0xFF 就 是 UTF-16BE， 如 
果 是 0xFF 0xFE 就 是 UTF-16LE。 
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但 是 ，UTF-16 如 果 要 表示 字母 A( 码 位 为 Ut+0041 ) 也 要 消耗 2 个 字 节 ， 这 
样 在 英语 圈 的 人 (只 使 用 ASCI 的 人 ) 看 来 ,字符 串 在 内 存 和 磁盘 上 的 消耗 突然 
变 成 了 原来 的 2 倍 。 而 且 ， 字 符 串 ABC 在 内 存 上 的 表示 方式 (在 UTF-16BE 的 情 
况 下 ) 为 0x00 0x41 0x00 0x42 0x00 0x43， 并 不 兼容 现存 的 ASCII 编码 。 

为 了 解决 上 述 问 题 ， 出 现 了 UTF-8。 首 先 ，Unicode 在 0x00~0x7F 的 范围 
内 分 配 了 和 ASCII 编码 相同 的 码 位 ， 由 此 , 在 UTF-8 中 上 述 范围 的 字符 可 以 用 
1 个 字 节 表示 ， 在 这 之 后 的 0x80~0x7FF 用 2 个 字 节 的 0xC280~0xDFBF 表示 ， 
0x800~0xFFFF 用 3 个 字 节 的 0xE0A080~0xEFBFBF 表示 。 用 语言 难以 描述 清楚 ， 
还 是 看 图 5-1 吧 。 


























图 5-1 i 到 第 7 位 为 止 ”0VVVVVVV 
UTF-8 的 二 进 制 表 示 到 第 11 位 为 止 110VVVVV 10VVVVVV 
方法 到 第 16 位 为 止 1110VVVV 10VVVVVV 10VVVVVV 





到 第 21 位 为 止 11110VVV 10VVVVVV 10VVVVVV 10VVVVVV 
到 第 26 位 为 止 111110VV 10VVVVVV 10VVVVVV 10VVVVVV 10VVVVVV 
到 第 31 位 为 止 1111110V 10VVVVVV 10VVVVVV 10VVVVVV 10VVVVVV 10VVVVVV 


※ 本 图 中 的 “V” 表 示 字 符 编码 的 位 都 存储 在 靠 右 的 位 置 。 

在 图 5-1 中 的 “V” 表 示 字 符 编 码 的 位 都 存储 在 靠 右 的 位 置 。 这 种 方法 的 
好 处 在 于 ， 在 只 使 用 ASCII 字符 的 情况 下 兼容 现存 的 ASCII 编码 ， 而 且 ， 由 于 
ASCII 字符 以 外 的 字符 ( UTF-8 需要 2 字 节 以 上 来 表示 的 字符 ) 全 部 使 用 0x80 以 
上 的 字 节 依次 表示 ， 因 此 即便 只 考虑 了 ASCII 编码 的 程序 ( 编译 器 等 )，( 只 要 能 
通过 8 位 ) 也 可 以 正常 地 处 理 UTF-8 的 文件 。 像 GB2312 中 0x5C 那样 的 问题 不 






































































































































会 在 UTF-8 中 出 现 。 同 样 ， 在 GB2312 中 有 搜索 “ 海 ” 却 被 匹配 成 “""” 的 问题 
(因为 “ 海 ”的 GB2312 编码 为 0xB0 0xA1,“""” 的 编码 为 0xA1 0xB0 )，UTF-8 
的 第 1 个 字 节 不 会 与 其 他 字符 的 第 2 个 以 及 之 后 的 字 节 重复 ， 因 此 不 会 有 问题 。 
员 此 从 逻 二 上 来 刘 不 再 另外，UTF-8 的 表示 方式 是 以 字 节 为 单位 的 ， 所 以 也 不 会 受 字 节 序 的 影响 *。 
需要 BOM 了 ， 但 还 是 UTF-8 的 缺点 在 于 ， 用 UTF-16 的 2 个 字 节 可 以 表示 的 字符 ， 在 UTF-8 中 需 
有 附加 了 BOM 的 编辑 





器 和 没有 BOM 就 不 能 ”要 3 个 字 节 才能 表示 。 

| 话说 回来 ， 图 5-1 中 所 示 ，UTF-8 最 大 为 6 字 节 ， 可 以 表示 31 位 的 码 位 ( 实 
际 分 配 到 了 4 字 节 21 位 ), 但 是 ， 在 使 用 UTF-16 的 情况 下 连 表 示 21 位 的 字符 
也 做 不 到 。 因 此 需要 使 用 一 种 称 为 代理 对 (Surrogate Pair ) 的 方法 ， 即 如 果 最 初 
的 2 个 字 节 在 特定 范围 (0xD800~0xDBFF ) 的 话 就 要 连接 后 面 的 2 个 字 节 来 表示 
1 个 字符 ， 以 此 方法 表示 0x10000~0x10FFFF 之 间 的 字符 。0x110000 以 后 不 能 
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UTF-16 表示 。 


补充 知识 。 Unicode 可 以 固定 ( 字 节 ) 长 度 吗 ? 


就 像 5.1.2 节 介 绍 的 那样 ， 在 内 存 中 表示 某 个 字符 串 的 时 候 ， 如 果 每 个 字符 占 的 
内 存 空 间 大 小 是 可 变 的 ， 就 会 很 不 方便 。 试 想 ， 只 要 写 str [i] 就 能 取 到 str 的 
第 i 个 字符 的 话 确实 很 方便 。 
这 点 ， 在 Unicode 中 UCS2 范围 内 所 有 的 字符 都 可 以 用 2 个 字 节 表示 ， 要 是 
能 忍受 ， 即 使 ASCI| 字符 也 要 消耗 2 个 字 节 的 话 就 太 完美 了 。 想 法 总 是 美好 的 ， 结 果 接 
下 来 发 现 2 个 字 节 容 不 下 了 ， 又 引入 了 代理 对 ， 结 果 1 个 字符 又 失去 了 固定 长 度 。 真 是 
蠢 死 了 。 肯 定 会 有 人 这 样 想 ( 实际 上 我 以 前 就 是 这 么 想 的 )。 
但 是 ，Unicode 在 最 初 的 建议 稿 ( 1989 年 9 月 的 Unicode Draft1 ) 中 就 提出 了 ， 
以 在 普通 的 罗马 字 后 面 加 上 方言 记号 的 形式 ( 合成 字符 ) 表示 德语 的 元 音 变 音 及 类 似 的 
字符 。 因 此 ，A 方 言 在 Unicode 中 表示 为 U+0041 U+0308 ( 但 是 为 了 与 现存 的 Latin-1 
编码 兼容 ， 也 可 以 用 U+00C4 表示 )。 

总 之 ，Unicode 从 一 开始 就 没有 想 让 一 个 字符 用 固定 长 度 表示 。 


ed crowbar book_ver.0.3 的 实现 


本 节 将 要 说 明 如 何在 crowbar_ver.0.3 中 实现 (实现 到 什么 程度 ， 怎 么 实现 ) 
对 中 文 的 支持 。 






















































































































































































































































































































































































要 实现 到 什么 程度 ? 


crowbar 对 中 文 (或 者 说 国际 化 ) 的 支持 应 该 到 什么 程度 呢 ?” 这 个 “程度 ” 
包含 了 多 方面 的 含义 。 首 先 ， 到 目前 为 止 ，crowbar 的 变量 或 者 函数 名 之 类 的 标 
识 符 只 支持 字母 。 

Java 等 语言 可 以 使 用 汉字 命名 变量 ， 但 我 想 很 少 有 人 会 用 到 ( 这 只 是 因为 习 
惯 的 问题 ， 其 实用 汉字 来 命名 变量 ， 代 码 可 读 性 没准 会 有 飞跃 性 的 提高 )， 这 个 
功能 即使 支持 了 中 文 也 没 人 会 用 到 。 另 外 ， 如 果 要 让 标识 符 支 持 汉 字 ， 就 要 决定 
是 否 允 许 变量 名 里 面包 含 全 角 空 格 。 因 为 比较 麻烦 ， 这 里 就 先 跳 过 了 。 

另外 还 有 一 个 问题 就 是 ， 要 支持 一 个 什么 样 的 字符 集 ? 
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使 用 5.1.3 节 中 介绍 过 





姑且 以 宽 字 符 (wchar t ) 为 一 个 字符 来 处 理 
的 mbtowc () 系列 函数 将 多 字 节 字符 转换 为 宽 字 符 。 

在 Linux 中 使 用 sizeof (wchar t) 返回 4， 但 在 Windows 中 返回 2。 
此 ， 宽 字符 可 以 正常 处 理 ASCII 字符 和 普通 的 中 文 ， 但 是 超过 了 UCS2 范围 的 字 
符 (在 UTF-16 中 被 组 成 代理 对 的 字符 ) 就 不 能 直接 处 理 了 。A 方言 这 样 的 合成 
字符 也 是 不 能 处 理 的 ( 使 用 兼容 Latin-1 的 U+00C4 来 表示 就 另 当 别论 了 )。 当 然 
并 不 是 完全 不 能 表示 ， 如 果 使 用 字符 串 的 length() 方法 获取 字符 串 的 长 度 的 
话 ， 会 得 到 和 实际 长 度 不 同 的 结 

这 样 一 来 ， 也 不 能 说 是 完全 支持 了 Unicode， 但 是 对 于 大 多 数 人 来 说 ， 和 暂且 
让 我 可 以 正常 地 使 用 中 文 和 英语 就 可 以 了 。 我 想 比 起 花 很 多 时 间 来 追求 完美 的 支 
持 ， 把 大 多 数 人 觉得 “可 以 ”的 范围 赶快 做 出 来 ， 是 更 好 的 选择 。 

以 下 两 种 编码 方式 为 用 于 输入 输出 的 多 字 节 的 字符 编码 方式 。 

e GB2312 

® UTF-8 

先 假设 crowbar 处 理 器 中 的 C 代码 和 用 crowbar 书写 的 代码 以 及 fgets () 等 
读 取 输入 输出 文件 的 函数 ， 全 部 使 用 了 统一 的 编码 方式 。 


5.3.2 | 发 起 转换 的 时 机 


在 crowbar 中 ， 以 下 这 些 情 况 需要 由 多 字 节 字符 转换 为 宽 字 符 ， 或 者 由 宽 字 
符 转 换 为 多 字 贡 字符 。 
1. 用 crowbar 书写 的 代码 中 的 字符 串 字 面 量 在 编译 时 需要 转换 为 宽 字 符 串 。 
2. fgets () 函数 读 取 的 字符 串 需要 由 多 字 节 字符 串 转换 为 宽 字 符 串 。 
3. 调用 print () 、fputs () 等 输出 函数 的 时 候 , 需要 由 宽 字 符 串 转换 为 多 字 节 字 符 串 。 
为 C 代码 中 使 用 GB2312 ( EUC-CN ) 艇 入 错误 信息 ， 所 以 在 组 装 错误 信息 时 需 

要 转换 为 宽 字 符 串 ( 信息 在 显示 的 时 候 ， 需 要 根据 规则 3 再 次 进行 转换 )。 

5. 在 接收 命令 行 参 数 ARGS 的 时 候 ， 需 要 转换 为 宽 字 符 串 。 


[e) 
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区 到 关于 区 域 设 置 


在 5.3.1 节 中 说 道 : 

先 假 设 crowbar 的 处 理 器 中 的 C 代 码 和 用 crowbar 书 写 的 代码 以 
及 fgets () 等 读 取 输入 输出 文件 的 函数 ， 全 部 使 用 了 统一 的 编码 方式 。 

可 是 ， 编 码 方式 究竟 是 什么 呢 ? 简单 地 说 ， 就 是 环境 默认 的 字符 编码 。 
Windows 是 GB2312，Linux 是 EUC-CN 或 者 UTF-8。UNIX 可 以 根据 环境 变 
量 LANG 进行 切换 。 

那么 ， 实 际 上 使 用 mbtowc () 系列 函数 将 多 字 节 字符 串 转 换 为 宽 字 符 串 ， 
要 为 转换 函数 群 指定 默认 区 域 设置 必须 调用 下 面 的 函数 。 

setlocale (re Een BE my) 


在 crowbar 中 ， 需 要 在 main () 函数 中 执行 上 面 的 语句 。 
setlocale() 函数 的 详细 设计 在 这 里 不 再 歼 述 ， 请 参考 ( C 语言 标准 库 的 ) 
手册 等 资料 。 


5.3.4 解决 0x5C 问题 


在 5.1.1 节 中 提 到 ， 当 前 的 crowbar 由 于 运行 在 GB2312 环境 下 ， 字 符 串 字面 
量 中 不 能 使 用 例如 “ 旺 ” 这 样 的 字符 。 

即使 可 以 使 用 mbtowc () 系列 函数 正确 地 处 理 GB2312， 还 必须 在 一 开始 就 
用 lex 解释 字符 串 字 面 量 ， 这 还 不 算 完 ， 为 了 解决 这 个 问题 还 要 在 crowbar.l 中 添 
加 代码 。 

GB2312 的 汉字 ， 第 1 个 字 节 定义 在 0xA1-0xF7 之 间 ， 第 2 个 字 节 定义 在 
0xA1-0xFE 之 间 。 因 此 ， 如 果 只 支持 GB2312 的 话 ， 要 在 crowbarl 中 添加 下 面 4 
行 代码 。 

( 之 前 省 略 ) 


<STRING LITERAL STATE>[\xal-\xf7] [\xal-\xfe] { 
erbBadams er moma emo 






























































un 

















enoaddnms er imges 


} 
( 之 后 省 略 ) 
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为 了 在 编译 时 能 区 分 源 文件 的 编码 ， 在 解释 天 中 保存 一 个 标识 。 


/* 保存 编码 方式 的 枚 举 类 型 */ 
typeof enum { 
GBD2312P ENCODING=1, /< GB23127 
UTF 8 ENCODING /* UTF-8 */ 
} Encoding; 

















struct CRB Interpreter tag { 
( 中 间 省 略 ) 
/* 在 CRB_Interpreter 结构 体 中 保存 
crowbar 代码 的 编码 方式 */ 


Encoding SUunesEemeoaamgr 











Dy 
在 此 基础 上 ， 在 lex 的 启动 条 件 中 添加 GB_2312_2ND_CHAR ( GB2312 的 
第 2 个 字 节 )， 代 码 在 读 取 到 了 GB2312 的 第 1 个 字 节 时 跳 转 到 GB _ 2312 2ND_ 
CHAR 执行 。 





<STRING LITERAL STATE>. { 
/* 从 解释 器 中 取得 编码 方式 */ 
he oem ne et ee nem ee ee emneo i 











/* 先 将 字符 添加 到 字符 串 字 面 量 中 */ 
emoaddne Erne a eo 
/* 如 果 代码 运行 在 GB2312 环境 下 ， 
再 判断 这 个 字符 ， 如 果 是 GB2312 的 第 1 个 字 节 ， 
跳 转 到 GB _ 2312 2ND CHAR 执行 */ 
if (ene == GB 2312 ENCODING 
Se (meiene es ee 0 = 
&& ((unsigned char*)yytext) [0] <= Oxf7)) { 
BEGIN GB 2312 2ND CHAR; 



































} 


<GB 2312 2ND CHAR>. { 
/AJNCB2312 的 第 DN/ 
esoaddns eo Ee ale 
BEGIN STRING LITERAL STATE; 





} 
增加 CRB_Interpreter 的 source encoding 成 员 , 是 因为 在 创建 CRB_ 
Interpreter 的 内 存 空间 时 ， 不 能 使 用 #ifdef 进行 分 割 (请 参考 interface.c 
的 函数 CRB_Interpreter() )。 








出 
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补充 知识 。 失败 的 #ifdef 
如 前 面 所 述 ， 在 执行 解释 器 的 处 理 嚣 中， 用 #ifdef 来 切换 语言 的 ( 默认 ) 设 定 


( GB2312、GBK 或 者 是 UTF-8 )。 在 最 初 的 crowbar 中 ， 就 是 使 用 #ifdef 进行 对 应 处 
理 器 的 切换 。 
在 一 些 C 的 入 门 书 中 都 有 这 样 一 句 话 : 为 了 提高 移植 性 而 适当 地 使 用 #ifdef。 以 
我 的 理解 , “适当 地 使 用 ”其 实 就 是 “尽量 别 用 ”的 意思 。 因 此 ， 这 次 我 ( 在 处 理 器 切 
换 时 ) 使 用 了 #ifdef， 这 对 我 来 说 也 是 一 次 失败 。 
根据 处 理 器 不 同 而 使 用 #ifdef 选择 不 同 代码 片段 的 话 ， 会 使 代码 变 得 很 难 理解 。 
另外 ， 像 这 样 分 散 的 代码 通常 很 难 进行 充分 的 测试 。 在 理想 状态 下 ， 所 有 持 fdef 的 组 合 可 
以 伴随 着 每 日 构建 进行 自动 化 测试 ， 这 感觉 还 不 错 ， 但 是 我 认为 这 在 实际 中 很 难 实现 。 
如 果 是 为 了 提高 移植 性 ， 那 么 也 可 以 不 使 用 #ifdef 来 处 理 各 种 分 支 ， 只 要 写 一 个 
尽 可 能 适应 各 种 处 理 器 的 代码 不 是 就 行 了 吗 ? 
编程 方面 的 著作 《程序 设计 实践 )9 中 有 以 下 记载 。 
如 果 我 们 对 于 条 件 编译 持 否 定 态度 ， 那 么 就 会 由 此 发 生 一 些 问题 。 先 不 说 
最 麻烦 的 。 条 件 编 译 基本 上 都 不 可 能 进行 测试 。( 中 间 省 略 ) 在 对 其 中 一 
个 #ifdef 代码 块 进行 测试 的 同时 ， 如 果 想 测试 另外 的 #ifdef 代码 块 ， 除 
非 改 变 环境 使 另 一 个 #ifdef 代码 块 生效 ， 否 则 无 法 进行 验证 。 
( 中 间 省 略 ) 
由 此 我 们 得 知 , 让 我 们 感 兴趣 的 是 , 在 所 有 目标 环境 中 都 可 以 运行 的 共通 性 功能 。 








































































































































































































































































































应 该 是 什么 样子 


5.3.1 节 决 定 了 crowbar 不 处 理 合成 字符 和 UCS2 范围 以 外 的 字符 。 

如 果 只 是 为 了 对 应 中 文 的 话 ， 这 样 的 设计 ( 指 5.3.1 节 中 提 到 的 设计 方式 ) 就 
没 问题 了 。 但 如 果 想 要 完美 地 实现 ， 钨 怕 就 需要 考虑 以 下 几 点 ( 以 Unicode 为 前 提 
1. 内 部 表现 也 要 使 用 UTF-8 

如 果 考 虑 合成 字符 的 话 ， 就 不 可 能 让 字符 有 固定 长 度 。 如 果 想 要 取得 字符 串 
的 第 n 个 字符 ， 每 次 都 必须 从 字符 串 的 开头 扫描 ， 所 以 还 是 算 了 吧 。 




















2. 不 使 用 mbtowc() 系 列 函数 ， 自 己 实 现 全 部 的 转换 

如 果 自 己 保存 转 码 表 ， 就 要 根据 不 同 的 情况 使 用 不 同 的 转 码 表 。 比 如 ， 在 需 
要 和 Java 兼容 的 时 候 要 使 用 Java 的 转 码 表 ， 如 果 要 在 Windows 对 话 框 中 显示 一 
个 字符 串 的 时 候 又 要 使 用 Windows 的 转 码 表 等 。 
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结果 "， 还 表示 “如 果 自 


语言 处 理 需 ， 正 好 解决 了 所 有 的 问题 。 


Es 
eR 
/已 、 
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mbtowc () 系列 函数 不 仅 意味 着 “在 所 有 的 处 理 顺 中 ， 总 是 可 以 返回 所 期 望 





己 保 存 转 码 表 的 话 ， 所 有 转换 都 要 自己 进 


rm 


们 。 


作为 一 个 还 算 现 实 的 做 法 ( 只 要 能 人 处理 好 中 文 就 可 以 了 )， 我 制作 的 这 个 





义 的 。 


如 果 一 味 追 求 结 果 而 不 





能 实现 也 是 没有 


补充 知识 











在 5.3.5 节 中 介绍 了 EE 














还 可 以 是 别 的 样子 一 一 Code Set Independent 
保存 转 码 表 和 将 内 部 编码 变 为 UTF-8 这 两 种 方法 。 








在 UTF-8 这 种 方法 中 


论 是 从 外 部 输入 的 字符 编码 还 





除 此 之 外 还 有 另 儿 
Independent( CSI )。 
若 将 内 部 编码 固定 为 U 


















































首先 让 内 部 的 编码 方式 使 用 Unicode， 在 正 


T 





常 的 情况 下 ， 不 














是 向 外 部 输出 的 字符 编码 都 是 Unicode。 











种 方式 ， 





即 内 部 编码 不 














司 定 。 这 种 方式 称 为 Code Set 








nicode， 那 么 在 UNIX 的 EUC 环境 中 ， 是 绝对 不 可 能 使 


























EUC 以 外 的 编码 方式 的 。 在 
































问题 ， 


暂且 不 说 效率 低下 的 














者 要 把 在 Unicode 中 认为 是 一 权 





都 是 不 能 处 理 的 。 












































实际 上 ，Ruby1.9 就 采 
编码 方式 。 























这 种 情况 下 ， 每 次 发 生 读 写 时 都 要 使 用 转 码 表 在 其 


EE 要 的 是 ， 如 果 想 要 表示 在 Unicode 中 没有 的 





中 转换 。 
字符 ， 或 





























Unicode 





的 字符 当做 不 同 的 字符 处 理 ， 这 些 情况 使 

















了 CSI 方式 。 在 Ruby 中 ， 每 个 字符 串 都 会 保存 着 自 

















( 外 部 编码 方式 ) 和 字符 串 的 编码 方式 ( 内 部 编码 方式 ) 进行 转换 。 
Emacs-Mule， 这 种 编码 方式 没有 采 





























用 像 Unicode 一 样 将 中 文 汉 
籍 限 秆 





有 [ 靶 























[= 


一 产 











语言 分 配 了 不 同 
的 文件 时 ， 如 果 像 crowbar 那样 限定 内 许 





体 来 说 ， 比 如 在 Ruby 支持 的 编码 方式 中 
方式 ， 它 基于 ISO-2022 为 各 医 


字 分 配 统一 编码 的 























ok 























列 如 在 输出 文件 的 情况 下 ， 只 要 Ruby 知道 转换 方法 ， 就 可 以 将 要 输出 的 编码 方式 


























( 但 


Si 
和 E /又 














的 编码 “。 在 处 理 以 这 种 方式 编码 ( 同时 存在 多 种 语种 的 文 
字符 编码 为 Unicode 的 编码 方式 ，3 





B 么 




















CSI 既 有 优点 也 有 缺点 。 
当 有 N 种 外 部 编码 方式 
转换 器 ( 共 2N 种 )。 与 此 相 












































接 字 符 串 的 时 候 也 会 受到 限制 。 
现在 ， 为 了 方便 实现 而 优先 将 内 





在 转换 为 内 部 表现 时 就 会 产生 不 可 道 的 ( 无 法 ' 








时 ，Unicode 正常 


的 处 理 方法 














局 
AE/ 














对 ，CSI 只 需要 ( 














的 ， 这 就 是 我 坚持 CSI 的 原 
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Oo 
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这 是 一 个 哲学 或 者 说 是 




















应 该 在 平衡 利 次 的 基础 上 青 




















© 





做 出 决定 。 





只 是 处 理 了 不 同 的 语种 ， 但 不 是 按 国家 划分 的 编码 。 一 一 译 者 注 
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1 ) 种 。 另 多 





介 值 观 的 问题 。 两 种 方式 都 





次 复 到 原来 状态 的 ) 信息 丢失 。 


住 备 输入 和 输出 的 编码 方式 
卜 ， 在 程序 中 进行 比较 和 连 







































































部 编码 限定 为 Unicode， 这 实际 上 还 是 有 些 问 题 
它们 的 合理 性 ， 在 使 用 的 时 候 
E 志 
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制作 Diksam Ver 0.1 语言 的 基本 部 








此 前 的 章节 中 ,我 们 已 经 制作 了 一 个 无 变量 类 型 、 通 过 分 析 树 执行 的 语 
言 crowbar。 从 本 章 开 始 ， 我 们 来 制作 一 个 静态 类 型 并 通过 字 节 人 码 执行 的 语言 


Diksam。 

Diksam 这 个 名 字 的 由 来 可 不 是 “ 像 Perl 一 样 ”的 双关 语 ， 而 是 我 钟爱 的 一 种 
红茶 的 名 字 。 既 然 有 了 咖啡 语言 Java， 再 来 一 个 红茶 语言 也 无 伤 大 雅 吧 。Diksam 
是 一 种 口味 浓郁 的 阿 萨 姆 红茶 ， 一 般 都 用 来 做 成 奶茶 。 我 很 喜欢 直接 去 感受 它 的 
那 份 浓郁 。 












































Diksam 的 运行 状态 


前 面 已 经 提 到 ，Diksam 是 通过 字 市 码 执行 的 语言 。 
虽然 现在 可 能 基本 上 者 说 起 通过 字 节 码 执行 的 语言 ， 以 Java 为 例 再 合适 不 过 了 *。 在 编写 Java 代码 
四 时 ， 要 先 编写 源 程序 ， 再 通过 javac 编译 成 保存 着 字 节 码 的 class 文件 。 
中 不 考虑 这 种 情况 。 Diksam 语言 不 会 生成 像 class 文件 那样 的 字 节 码 文件 。 编 译 需 解析 源 代 码 并 
生成 分 析 树 后 ， 直 接 在 内 存 中 生成 字 节 人 码 。 这 些 在 内 存 中 生成 的 字 节 码 ， 会 由 
Diksam 的 虚拟 机 DVM ( Diksam Virtual Machine ) 运行 。 
Diksam 不 生成 字 节 码 文件 的 做 法 ， 免 去 了 考虑 文件 格式 和 文件 编码 的 麻烦 。 
当然 ， 除 了 我 的 个 人 考量 外 ， 对 于 用 户 来 说 也 省 去 了 逐个 编译 源 文件 的 工夫 。 这 
种 做 法 在 代码 量 非 常 巨 大 的 情况 下 ， 每 次 启动 程序 时 花费 在 编译 上 的 时 间 都 会 让 
你 等 得 不 耐烦 。 当 然 ， 程 序 不 是 很 大 的 时 候 还 是 很 方便 的 。 
另外 ， 在 实现 中 ，DVM 将 完全 信任 编译 器 生成 的 字 节 码 。 所 谓 “ 完 全 信任 ” 
就 是 说 ， 即 使 是 含有 恶意 代码 的 字 节 码 DVM 也 会 加 载 执 行 ， 不 过 这 可 能 会 使 
DVM 崩 演 。 
Diksam 是 一 种 静态 类 型 语言 ， 在 编译 时 就 已 经 决定 了 所 有 变量 和 表达 式 的 数 
据 类 型 。 因 此 ， 在 运行 时 就 不 需要 再 检查 变量 的 数据 类 型 了 7。 比 如， 为 了 在 堆 中 
存储 一 个 字符 串 ,string 型 变量 会 (间接 的 ) 保存 指向 该 字符 串 的 指针 ， 但 如 果 存 
储 的 整数 型 局 部 变量 被 当 作 string 型 引用 时 ，DVM 就 会 因为 找 不 到 正确 的 引用 地 
址 而 崩 演 。 
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代码 清单 6-1 
fizzbuzz_0_1.dkm 
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但 也 是 有 相应 对 策 的 ， 比 如 在 网 页 中 运行 的 Java Applet， 由 于 必须 执行 来 
自 外 部 的 (不 能 被 信任 的 ) 字 节 码 ， 因 此 绝对 不 允许 发 生 上 述 情 况 。 所 以 Java 
在 加 载 字 节 码 的 时 候 会 执行 验证 器 ( verifier ) 程序 ， 以 验证 加 载 的 字 节 码 是 否 


























正确 。 
但 是 ， 制 作 验证 需 非常 复杂 ， 而 Diksam 还 只 是 直接 在 内 存 中 执行 字 节 码 的 
语言 ， 所 以 …… 不 好 意思 ， 这 里 我 要 跳 过 啦 。 

















什么 是 Diksam 


首先 ， 我们 制作 的 Diksam 是 Diksam book ver.0.1 版 本 ， 实 例 请 参考 代码 清 
单 6-1。 











int Print (String te) 
生 丽 息 ” 生疏 
for(i = 1; i <= 100; i++){ 
(多 15 ss 0){ 
print ("FizzBuzz\n"),; 
}elsif(i % 3 == 0){ 
print ("Fizz\n"); 
}elsif(i % 5 == 0){ 
print ("Buzz\n"); 
}elsef{ 
Print("" + i + "\n"); 
} 
} 





6.1.3 程序 结构 


与 crowbar 相同 ，Diksam 中 也 有 顶层 结构 ， 并 且 人 允许 在 函数 外 
序 从 顶层 结构 的 开头 开始 执行 。 
Diksam 用 下 面 的 方式 定义 函数 。 与 C 语言 基本 相同 。 


meteeunme (mt a du 
int local varible;// 声明 











写 代码 。 程 




















局 部 变量 


Toccug venice oar, 
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penmt (locallvar ole oc var ble 


Leenmrnelocal ar ie 


6.1.4 数据 类 型 


Diksam book ver.0.1 可 以 使 用 以 下 四 种 数据 类 型 。 


@ boolean (布尔 ) 型 。 可 以 赋 true 或 false 值 。 
e int (数字 ) 型 。 











e@ double ( 浮 点 ) 型 。int 和 double 混合 进行 运算 时 ， 参 与 运算 的 int 类 型 会 自 








动 扩展 为 double 人 





























string ( 字符 串 ) 型 。 当 字符 串 在 + 号 左边 时 ， 右 边 的 部 分 会 自动 转换 为 string 型 。 


double 这 个 关键 字 在 C 语 言 中 的 意思 是 双 精 度 浮 点 数 ， 这 里 的 double 
以 float ( 单 精度 浮 点 数 ) 的 存在 为 前 提 。 但 是 ，Diksam 中 并 没有 float ， 尽 








管 它 叫 作 aouble 型 ， 也 纯粹 是 为 了 照顾 C 和 Java 语言 的 使 用 者 而 已 。 














如 前 所 述 ，Diksam 是 静态 类 型 的 语言 ， 变 量 必须 事先 声明 ， 声 明 方 式 和 C 





语言 一 样 ， 如 下 所 示 : 
Im a 
在 函数 内 声明 的 局 部 变量 只 可 以 在 声明 变量 的 程序 块 内 引用 ， 


变量 是 全 局 变量 "。 


























函数 外 声明 的 








现 阶段 在 Diksam 中 变量 声明 也 是 一 种 语句 ， 可 以 写 语 句 的 地 方 就 可 以 声明 











在 C 语言 中 变量 必须 声明 在 程序 块 的 开头 部 分 ，C++ 和 Java 取消 了 这 个 限 
制 。 虽然 这 被 大 多 数 人 认为 是 个 改进 ， 而 且 Diksam 也 是 这 么 做 的 ， 但 是 Cs 














我 不 喜欢 这 个 改进 。 我 认为 ， 在 代码 的 任意 位 置 都 可 以 声明 变量 会 














中 程序 块 内 外 都 可 引 o 译 者 注 
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函数 新 
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渐变 得 兄长。 因此 ， 也 许可 以 趁 现在 ”改正 过 来 。 

Diksam 中 声明 变量 的 方式 和 C 等 语言 相同 ， 采 用 类 型 变量 名 ; 的 形式 。 这 
种 形式 对 于 处 理 数组 和 函数 类 型 的 变量 来 说 很 麻烦 。 如 果 引 入 预 声明 关键 字 var， 
那么 像 下 面 这 样 把 数据 类 型 写 在 后 面 的 语法 (Pascal、Ada、ActionScript 都 是 这 
种 方式 ) 处 理 起 来 会 简单 一 点 。 

Var a:int; 

但 是 ， 习 惯 了 C 或 者 Java 语言 的 程序 员 肯 定 会 说 ， 还 是 类 型 变量 名 ; 这 样 
的 方式 写 着 更 顺手 。 为 了 照顾 大 家 ，Diksam 还 是 采用 了 大 家 比较 习惯 的 方式 。 实 
际 上 ， 在 拙 著 《征服 C 指针》( 人民 邮 电 出 版 社 ， 吴 雅明 译 ) 中 ， 整 本 书 都 在 表 
达 对 C 语言 变量 声明 语法 结构 的 不 满 。 在 那 本 书 中 写 了 那么 多 不 满 ， 现 在 却 变 成 
了 墙头 草 ， 肯 定 要 被 嘲笑 了 。 

言 归 正 传 ， 类 型 变量 名 ; 形式 的 语法 如 果 包 含 了 数组 和 类 ( class )， 制 作 语 
法 分 析 絮 的 时 候 就 会 出 现 各 种 问题 ， 垃 亏 Diksam 在 语法 规则 上 花 了 不 少 功夫 才 
避免 了 这 些 问 题 。 这 个 话题 我 们 在 后 面 的 章节 中 详细 说 明 。 

变量 初始 化 语句 ( initializer ) 的 方式 也 与 C 语言 相同 。 


rine Er ee OR 


6.1.6 | 语句 和 流程 控制 


流程 控制 语句 有 :if(elseif .else)while.for.break.continue. 
























































returno 
含义 和 crowbar 相同 ， 花 括号 也 不 可 以 省 略 。 另 外 ，break 和 continue 也 
可 以 使 用 标签 ( 和 Java 一 样 )。 


表达 式 


Diksam 中 可 以 使 用 的 运算 符 及 其 优先 级 ， 如 表 6-1 所 示 。 





中 制作 Diksam 语言 的 机 会 。 一 一 译 者 注 





出 
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表 6-1 运算 符 含义 
在 Diksam 中 可 以 使 用 ,， -1() 增 、 自 减 、 函 数 调 
的 运算 符 
( 单 目 ) - 符号 反 转 
* / 乘法 、 除 法 、 模 
加 法 、 减 法 
ER 比较 大 小 。 字 符 串 也 可 以 比较 大 小 ( 以 strcmpf) 为 基准 ) 






























































== != 等 值 比较 。 字 符 串 也 可 以 进行 比较 ( 比较 的 不 是 引用 而 是 值 ) 
逻辑 与 ( AND ) 运算 符 。 短 路 运算 符 ， 在 表达 式 a && b 中 ， 如 




























































































果 a 为 真 ，b 就 不 判断 

逻辑 或 ( OR 运算 符 。 短路 运算 符 , 在 表达 式 a | b 中, 如果 a 为 
| b 就 不 判断 了 
ee 赋 信 运算 符 。 与 语言 中 的 含义 相同 

















逗号 运算 符 。 从 左 到 右 的 顺序 计算 表达 式 ， 返 回 右边 表达 式 的 信 
函数 调用 被 定义 为 运算 符 ， 说 明 函 数 也 是 一 种 表达 式 。 
这 就 意味 着 ,在 crowbar 中 可 以 像 C 语言 的 函数 指针 那样 把 函数 赋值 给 变量 ， 
但 是 ， 实 际 上 crowbar 并 不 能 声明 保存 函数 的 变量 ， 因 此 也 就 没 办 法 把 函数 赋值 





























6.1.8 | 内 建 函 数 


Diksam 在 一 开始 就 准备 了 内 建 函 数 。Diksam book ver.0.1 中 的 内 建 函 数 一 览 
































表 如 下 所 示 。 
int print (string arg) 显示 arg。 返 回 值 为 0 ( 因为 还 没有 void 类 型 ) 
完毕 ! 














只 有 一 行 的 一 览 表 ,很 粮 是 吧 。 


BE x 


注释 可 以 使 用 C 风格 的 /*~*/， 也 可 以 使 用 C++ 从 // 开始 到 本 行 结束 的 
风格 。 











Ya 吕 图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 





6.2 ”什么 是 静态 的 /执行 字 节 码 的 语言 | 16 9 





什么 是 静态 的 / 执行 字 节 码 的 语言 





静态 类 型 的 语言 





如 前 所 述 ，Diksam 是 静态 类 型 的 执行 字 节 码 的 语言 。 这 样 的 语言 有 以 下 
优点 。 
1. 能 够 高 速 执行 ( 通常 情况 下 ) 

理由 会 在 之 后 详 述 。 对 于 静态 类 型 的 执行 字 节 码 的 语言 来 说 ， 如 果 能 够 朴素 
地 实现 这 两 个 方面 的 话 ， 会 比 无 类 型 并 通过 分 析 树 执行 的 语言 拥有 更 快 的 速度 。 


2. 编译 阶段 和 执行 阶段 分 离 

例如 在 Java 中 ， 事 先 使 用 javac 把 源 代码 生成 为 class 文件 ， 这 样 在 执行 时 就 
不 需要 再 编译 了 。 

实际 上 crowbar 由 源 代 码 生 成 分 析 树 的 处 理 并 不 耗 时 ，(Diksam 要 想 比 
crowbar 强 的 话 ) 速度 上 没有 什么 可 期 竺 的。 相反 ， 如 果 想 要 在 不 发 布 源 代码 的 
情况 下 运行 程序 倒 还 是 有 希望 的 。 话 虽 如 此 ， 实 际 上 因为 现在 的 Diksam 是 在 内 
存 上 构建 字 节 码 并 执行 的 ， 结 果 还 是 必须 要 发 布 源 代码 。 
3. 相 比 之 下 使 用 静态 类 型 的 语言 编写 的 代码 更 易 读 

静态 类 型 的 语言 通常 要 将 变量 和 类 型 一 起 声明 ( 比如 int a; )。 也 许 会 有 人 
觉得 这 样 很 麻烦 ( 这 就 是 为 什么 无 类 型 的 LL 语言 这 么 有 人 人 气 的 原因 )， 实 际 上 也 
不 是 很 费事 ， 因 为 还 是 把 变量 类 型 明确 化 以 提高 源 代码 的 可 读 性 更 为 重要 。 至 少 
我 是 这 么 想 的 ， 但 这 人 句 话 是 一 个 泥潭 ， 还 是 赶快 结束 这 个 话题 吧 。 


6.2.2 | 什么 是 字 节 码 


字 节 码 是 在 被 称 为 虚拟 机 ( Virtual Machine ) 的 虚拟 CPU 上 执行 的 机 器 语言 。 
机 融 语 言 直接 通过 CPU 执行 ， 而 字 节 码 通过 虚拟 机 执行 。 
字 节 码 和 机 咒语 言 一 样 ， 实 际 上 都 是 数字 的 序列 〈 这 点 也 和 机 器 语言 一 样 )。 
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为 了 让 大 家 更 好 的 理解 ， 各 个 命令 将 以 一 种 被 称 为 助 记 符 ( mnemonic ) 的 字符 
形式 表现 出 来 。 

比如 在 Java 虚拟 机 ( JVM ) 中 运行 的 字 节 码 就 是 下 面 这 个 样子 。( 再 来 回 看 
一 下 代码 清单 1-4 ) 


Ud 





























0: bipush 10 
ne 

Se eadnl 

4: bipush 10 

Er Elemene 20 
9: getstatic 

de dole 

14: invokevirtual 
过 (leieie 翅 局 
2UORRESEESEaETC 
2 过 
25: invokevirtual 


可 能 有 人 会 认为 ， 就 算是 为 了 让 读者 能 够 更 好 地 理解 才 使 用 了 字符 串 的 表现 
方式 ， 可 这 种 根本 就 不 知 所 云 的 东西 如 果 想 要 从 源 代码 生成 出 来 ， 简 直 就 是 做 
梦 ， 更 不 要 说 作 一 个 可 以 生成 字 节 码 的 编译 器 了 。 但 实际 上 并 没有 那么 难 ， 有 具体 
步 又 请 见 下 节 。 


























将 表达 式 转换 为 字 节 码 


crowbar 从 ver.0.2 版 本 开始 把 计算 过 程 中 的 值 存 人 栈 中 (为 了 确保 GC 可 以 
追踪 指针 )。 在 这 种 情况 下 ， 执 行 字 节 码 的 语言 也 会 进行 大 致 同样 的 实现 。 关 于 
此 事 ，4.2.3 节 的 最 后 部 分 中 有 如 下 记载 。 

这 种 做 法 与 JVM 堆栈 机 运行 字 节 码 时 的 栈 动 作 相同 。 如 此 一 来 ， 我 们 就 癌 
字 节 人 码 解释 器 又 迈进 了 一 步 。 
具体 来 说 ， 分 析 树 优先 从 最 深层 次 开始 遍历 ， 从 而 生成 下 面 这 样 的 代码 。 
1. 常量 /变量 类 会 直接 把 值 保存 到 栈 中 。 

2. 双 目 运算 符 以 先 左 后 右 的 顺序 保存 到 栈 上 ， 从 栈 顶 端的 两 个 元 素 开 始 计算 ， 并 将 
结果 保存 到 栈 中 。 


比如 : 
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这 个 表达 式 会 展开 成 图 6-1 所 示 的 分 析 树 。 


图 6-1 
分 析 树 (5) 





这 个 分 析 树 以 自 上 而 下 的 顺序 遍历 ， 同 时 ， 常 量 的 节点 会 生成 凶 节 码 push 
值 ， 运 算 符 节点 生成 代表 运算 符 的 字 方 码 ， 生 成 的 字 节 码 如 下 所 示 。( 下 面 的 代 
码 只 是 用 作 说 明 的 模拟 代码 。 这 些 字 节 码 既 不 是 Java 的 ， 也 不 是 Diksam 的 。) 





















































































































































J ve 大 
2 
Seuss 
4: mul # 将 栈 项 的 两 个 元 素 进 行 乘法 运算 ， 并 将 结果 入 栈 。 
5: add # .a 个 元 素 进 行 加 法 运算 ， 并 将 结果 入 栈 。 
了 
7: sub # 将 栈 顶 的 个 元 素 进行 减法 运算 ， 并 将 结果 入 栈 。 
此 时 栈 的 动作 如 图 6-2 所 示 。 
图 6-2 Ee 0 5 时 将 这 
1. 将 [1] 2. 将 [2] “4 3. 将 [3] 4. 将 栈 项 的 两 个 a a 
进行 乘法 运算 ， 并 
将 结果 入 栈 。 
两 个 元 素 进行 
ga 
5. ai 个 元 素 ”6. 将 [4] ee 天 Ce 个 元 素 
进行 加 法 运算 ， 并 进行 减法 运算 ， 并 
将 结果 入 栈 。 将 结果 入 栈 。 
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有 些 语 














使 用 +， 有 些 























- 作为 运算 符 。 顺 








使 





便 说 一 下 ， 在 crowbar 
和 Diksam 中 使 用 的 都 


=] 
在 +o 


























在 表达 式 中 不 止 有 上 例 中 的 双 目 运算 符 ， 还 有 单 目 运算 符 ， 而 且 它 们 的 思路 
是 一 样 的 。 比 如 单 目 运 算 符 的 减 号 ， 在 栈 中 执行 的 操作 是 “将 栈 顶 的 值 取出 ， 反 
转 符 号 再 存 入 栈 中 ”。 

但 是 ， 上 述 例 子 中 只 处 理 了 整数 。 在 实际 的 编程 语言 中 还 必须 要 处 理 实数 ， 
也 有 可 能 会 出 现 “整数 和 实数 相 加 ”这 样 的 混合 运算 。 在 这 种 情况 下 ， 必 须要 将 
参与 运算 的 整数 转换 为 实数 再 进行 加 法 运算 。 在 有 些 语 言 中 ， 字 符 串 和 整数 也 
可 以 进行 加 法 运算 *。 接 下 来 的 操作 就 变 成 了 将 整数 转换 为 字符 冲 然 后 再 将 其 
连接 。 

在 执行 这 样 的 操作 时 ， 有 两 种 方法 。 

第 一 种 是 在 向 栈 中 保存 值 的 时 候 就 加 入 能 够 区 分 类 型 的 标识 ， 在 运行 时 再 进 
行 判断 。crowbar 使 用 的 就 是 这 个 方法 。CRB_Value 结构 体 的 成 员 type 保存 的 
就 是 类 型 的 标识 ， 在 运行 时 根据 这 个 标识 进行 转型 和 运算 。 

另外 一 种 方法 是 ， 在 编译 时 进行 类 型 判断 。 

如 果 有 必要 转型 的 话 ， 类 型 转换 处 理 将 在 编译 时 进行 。 那 么 ， 像 图 6-3 这 样 
一 个 分 析 树 就 能 够 实现 类 型 的 转换 了 。 


































































































口 


和 和 


这 个 分 析 树 生成 的 字 节 码 如 下 。 


SEEdeeueaE25 
Sn 3 
:castaimtatondoule 
Sadgdmdouble 


第 三 行 的 cast_int to double 命令 将 栈 顶 的 int 值 转换 为 double。 
在 这 种 方法 中 ， 如 果 是 加 法 运算 ， 究 竟 要 如 何 区 分 是 整数 之 间 相 加 ， 还 是 实 
数 之 间 相 加 或 者 是 字符 串 连 接 呢 ? 在 编译 完成 之 后 就 完全 清楚 了 。 因 此 ， 在 执行 


mo 
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时 无 需 加 入 多 余 的 判断 ， 也 可 以 加 快 执 行 速度 。 
但 是 这 样 一 来 ， 在 编译 时 就 必须 要 知道 变量 的 类 型 ， 因 此 必须 要 让 用 户 进行 
前 太 关 型 的 西数 式 语 ” 囊 变 量 类 型 的 声明 *。 
言 ， 即 使 不 声明 类 型 ， 
编译 器 也 可 以 根据 类 弄 


推论 推测 出 来 。 6.2.4 | 将 控制 结构 转换 为 字 节 码 


像 让 和 while 之 类 的 控制 结构 , 在 字 节 码 中 使 用 goto 这 样 的 跳 转 (jump ) 





























命令 实现 。 
比如 下 面 这 段 i£ 语句 。 
(=== 


条 件 成 立时 的 处 理 
条 件 成 立时 的 处 理 











} 
后 续 的 处 理 
将 这 段 代 码 用 字 节 码 来 表示 。 


: push 变量 a 的 值 

LEE 10 

: ed int # 栈 项 的 两 个 int 之 间 进 行 比较 ( == )， 并 将 结果 入 栈 
: jump_if_false 7 # 栈 项 的 值 如 果 是 false 就 跳 转 到 第 7 行 

: 条 件 成 立时 的 处 理 
: 条 件 成 立时 的 处 理 
后 续 的 处 理 # 从 第 4 行 跳 转 到 本 行 


在 crowbar 中 ， 控 制 结构 也 是 用 分 析 树 来 表现 的 。 程 序 在 执行 的 同时 对 分 
析 树 进行 递归 ， 为 了 实现 break 和 continue 这 样 的 语句 ， 程 序 必 须要 从 
递归 的 最 深层 开始 (使 用 特殊 的 返回 值 )。 在 执行 字 节 码 的 语言 中 可 以 更 简 
单 地 实现 break 和 continue,( 如果 必 要 的 话 ) goto 也 可 以 简单 地 实现 
(递归 )。 


6.2.5 | 函数 的 实现 


在 C 等 语言 中 ,通常 情况 下 函数 的 调用 也 是 用 栈 来 实现 的 。 
这 种 情况 在 拙 著 《 征 服 C 指针 》 中 有 详细 的 介绍 ， 请 各 位 读者 参考 。 其 
中 大 致 说 明了 在 C 的 情况 下 ,，( 简单 实现 的 话 ) 函数 的 调用 遵循 以 下 步骤 (如 
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将 参数 ( 从 后 面 开始 ) 入 栈 
返回 地 址 等 返回 信息 入 栈 
























































己 部 变量 所 占 内 存 区 域 入 栈 














语言 中 的 函数 调用 


另外 ， 在 机 器 语言 中 保 
存 着 以 base 为 起 点 的 
偏 移 量 引用 地 址 的 寄存 
器 ( register )， 我 们 称 
其 为 基 址 寄存 器 ( 寄存 
器 在 机 器 语言 中 类 似 变 
量 )。 本 书 并 不 是 关于 
机 器 语言 的 书 ， 因 此 以 
后 都 用 base 来 表示 。 


vat 

















































































































调用 函数 func (1，,2,3) 
增长 方向 





























func () 中 的 运算 
所 使 用 的 栈 





部 
wl 
ja 


中 
[sg el ok 
六 
la 
DL 














| 中 
T 将 
sm | ja 
和 Wu 























> 参数 











函数 调用 者 
> 在 运算 时 使 
的 栈 

C 语言 的 参数 从 后 面 开始 人 栈 是 为 了 实现 像 printf () 这 样 可 变 长 参数 的 函 
数 。 这 次 制作 的 Diksam 语言 中 没有 可 变 长 参数 ， 因 此 没有 必要 特意 从 后 面 开始 
( 向 栈 内 ) 保存 参数 (实际 上 Diksam 是 从 前 面 开始 保存 参数 的 )。 

所 谓 返 回 地 址 ， 和 字面 意思 一 样 ， 指 向 了 函数 终结 时 返回 的 地 址 。 当 函数 从 
( 栈 的 ) 某 处 开始 调用 之 后 ， 如 果 不 将 返回 地 址 保存 到 栈 中 ， 在 函数 结束 时 就 不 
知道 要 返回 到 哪里 去 了 。 

当 所 有 局 部 变量 保存 到 栈 中 的 时 候 ， 栈 的 顶部 就 在 图 中 base 箭头 所 指 的 位 
置 。 利 用 以 base 为 基准 的 偏 移 量 ， 可 以 指定 局 部 变量 或 者 参数 *。 

在 之 前 的 if£ 语句 字 市 码 的 例子 中 ， 如 果 把 中 文 “push 变量 a 的 值 ” 写 成 
字 节 码 的 话 ， 应 该 像 下 面 这 样 〈 当 a 是 局 部 变量 的 情况 下 )。 

push stack int 0 # 0 是 变量 a 基于 base 的 偏 移 量 

在 需要 声明 变量 的 语言 中 ， 全 局 变量 也 要 在 编译 时 全 部 决定 下 来 ， 因 此 不 能 
为 这 些 全 局 变量 指定 偏 移 量 的 编号 。 比 如 int 型 的 全 局 变量 的 值 向 栈 中 保存 的 字 
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节 码 应 该 是 下 面 这 样 。 
pusnlstatiea me 0 # 0 是 这 个 全 局 变量 的 索引 








FE Diksam ver.0.1 的 实现 一 一 编译 篇 
区 下 目录 结构 


Diksam 为 了 使 编译 器 与 执行 器 ( DVM ) 分 离 ， 使 用 了 以 下 的 目录 ( direc- 
tory ) 结构 。 














® compiler 
包含 Diksam 的 编译 器 代码 。 函数 名 等 的 前 缀 为 DKC,main () 函数 暂时 放 在 这 里 面 。 

















@ dvm 

包含 Diksam 的 执行 器 ( DVM ) 代码 。 函 数 名 等 的 前 缀 为 DVM。 
@ share 
包含 compiler、dvm 两 个 模块 共享 的 代码 。 函 数 名 等 的 前 缀 为 qvm。 

严格 来 说 ， 这 里 打破 了 命名 规则 ， 这 是 因为 考虑 到 是 否 要 给 只 在 编译 器 和 DVM 
中 使 用 的 代码 加 一 个 公共 的 前 级 ， 还 有 编译 器 也 是 依赖 DVM 的 。 


































































































































































































® include 
包含 在 多 个 目录 中 被 引用 的 头 文件 。 

e memory 
在 介绍 crowbar 的 时 候 ， 在 3.2.2 节 中 制作 的 内 存 管理 的 库 。 函 数 名 等 的 前 缀 
为 MEM。 

® debug 
在 介绍 crowbar 的 时 候 ， 在 3.2.2 节 中 制作 的 用 于 调试 的 库 。 函 数 名 等 的 前 缀 
为 DBG。 











在 表 6-2 中 描述 了 include 中 包含 的 头 文件 。 








出 


图 灵 社 区 会 员 on 专 享 尊重 版 权 





176 | 第 6 章 制作 静态 类 型 的 语言 Diksam 




















































































































































































































































































































表 6-2 头 文件 名 说 明 
头 文件 一 览 表 l 
Diash Diksam 编译 器 库 的 公用 头 文件 。 用 到 了 Diksam 编译 器 的 程序 需 
#include 
DVM.h Diksam 虚拟 机 的 公用 头 文件 。 用 到 了 Diksam 执行 器 的 用 户 程 序 需要 #include 
UN dei Diksam 编译 生成 的 字 节 码 对 象 。 定 义 了 DVM_Executable 结构 体 的 头 文 
code. 
一 件 。Diksam 编译 器 和 DVM 都 会 使 用 到 这 个 文件 
头 文件 中 定义 了 用 于 Diksam 的 编译 器 生成 字 节 码 的 结构 体 DVM_Execut- 
ev. 
一 able。Diksam 的 编译 器 和 DVM 都 会 使 用 这 个 文件 
share.h 编译 器 和 DVM 的 共享 模块 share.o 的 公用 头 文件 
DBG.h 于 调试 的 模块 DBG 的 公用 头 文件 
MEM.h 内存 管理 模块 MEM 的 公用 头 文件 











6.3.2 编译 的 概要 


编译 按照 下 面 的 顺序 进行 。 
1. 构建 分 析 树 
在 create.c 中 实现 。 


2. 修正 分 析 树 

在 这 个 阶段 中 进行 的 操作 有 ， 为 表达 式 分 析 树 中 的 各 节点 加 入 类 型 ， 如 果 存 在 不 同 
类 型 间 的 运算 时 加 入 转换 节点 ， 将 表达 式 中 用 到 的 变量 与 其 声明 绑 定 。 
上 述 操作 会 尽量 在 构建 分 析 树 的 同时 完成 ， 实 在 不 行 的 话 也 会 在 其 他 阶段 中 进行 。 
此 阶段 ( 也 就 是 所 谓 的 “语义 分 析 ” 阶 段 ) 会 在 fix_tree.c 中 执行 。 

3. 生成 字 节 码 

自 上 而 下 的 顺序 遍历 分 析 树 生成 字 节 码 。 在 generate.c 中 实现 。 


6.3.3 构建 分 析 树 ( create.c ) 


构建 分 析 树 其 实 跟 crowbar 相 比 没有 什么 变化 。 如 果 一 定 要 说 有 什么 不 同 的 
地 方 ， 也 只 能 讲 讲 “程序 块 ” 的 处 理 了 。 

Diksam 局 部 变量 的 作用 域 在 它 声明 的 程序 块 中 。 

比如 ， 表 达 式 中 使 用 了 叫 作 a 的 变量 时 ， 编 译 需 会 首先 探测 最 内 层 的 程序 块 
中 是 否 声明 了 a， 如 果 没 有 ， 再 逐个 探测 外 层 的 程序 块 。 为 了 实现 这 种 处 理 方式 ， 
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在 程序 块 的 结构 体 中 包含 了 outer_block 成 员 。 


typedef struct Block tag { 


BlockType EWMDeS 

Streuct plockmtag “ou eo 一 E 
StatementList stelemene a 
DeclarationList weeelarab ioumist. 
union { 


StacementeBplocomrnteons raemenme, 
FUNCEiONBLOCkINEoO Ewetaone 
} parent; 
Peleerm 
outer_block 保存 了 外 层 程 序 块 的 指针 。 


为 了 设 定 outer_block， 在 Block 结构 体 创建 实例 的 同时 ， 必 须要 知道 哪 
个 是 当前 程序 块 ( 新 创建 的 程序 块 的 外 层 程序 块 )。 因 此 ， 在 编译 避 本 体 ( DKC_ 
Compiler ) 中 保存 了 current block。 








struct DKC Compiler tag { 


MEM Storage compile storage; 
pumetdonnet me io Eun lonaee 

int Fumet uongeoume, 
DeclarationList Easelereraonnli 
StatementList enent a 

SEE cunment el me nme 
Block eurpeenteolock: -En 
DKC_ InputMode amput mode, 

Encoding SSurnesEenmeeaang 


) 7 
设 定 这 个 curtent_block 的 时 机 是 在 程序 块 开 始 的 时 候 ( 解 释 需 读 取 
到 { 的 时 候 )。 
比如 在 crowbar 中 crowbary 有 如 下 代码 。 





block 
etementeln Re 


Ss epieneateao lo (2 


Sr biereasenoloee Nn 


这 个 方法 在 程序 块 结束 的 时 候 没 有 任何 动作 。 


出 
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为 了 能 够 设置 current_block， 我 们 要 在 diksam.y 里 的 规则 中 插入 





动作 。 
/* 总 之 还 是 想 要 实现 "LC statement list RC" */ 
block 


Re 


{ 


SS = dkelopenablocln( 


} 


Statenentalns te 


{ 


SS =>dkelelosenolocer(S DLlocr > 


} 


还 是 有 "LC RC" 的 规则 ， 这 里 省 略 了 。 
这 样 的 动作 被 称 为 能 入 动作 。 
yacc 在 处 理 甬 入 动作 的 时 候 ， 会 峙 入 一 个 虚拟 的 目标 。 和 藤 入 动作 将 被 作为 这 
个 虚拟 目标 的 动作 进行 处 理 。 即 为 : 


bleele 




















: LC { 骨 入 动作 } statement list RC 


{ 
程序 块 结束 时 触发 的 动作 。 
} 


上 面 这 段 代码 ， 等 同 于 下 面 的 代码 。 


Bleele 
cumm nt Seatenmenen ene 
{ 
程序 块 结束 时 触发 的 动作 。 
} 


dummy target 


! 





嵌入 动作 
} 
虚拟 目标 部 分 并 没有 声明 类 型 ，( 如 果 想 要 使 用 的 话 ) 能 入 动作 中 辐 $$ 设 定 
的 值 ， 记 作 $< 类 型 > 序号。 前 面 写 到 的 diksam.y 中 向 dkc_close block() 传 
递 的 参数 $<block>2，$3， 其 中 $<block>2 就 是 般 入 动作 中 间 $$ 设 定 的 
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值 , statement_1ist 就 变 成 $3 了 (由 于 加 入 了 艇 入 动作 , 向 后 移动 了 一 个 " )。 


区 到 修正 分 析 树 ( fix_tree.c ) 


在 fix_tree.c 中 将 会 扫描 create.c 生成 的 分 析 树 ，3 
类 型 、 将 表达 式 中 的 标识 符 与 声明 绑 定 这 些 操作 。 
下 面 的 项 目 将 要 说 明 的 是 这 些 操作 的 具体 内 容 。 



































四 常量 表达 式 的 包装 


mm 





进行 错误 检查 、 添 加 数据 


这 个 操作 在 crowbar 中 已 经 存在 了 ，Diksam 表达 式 中 的 常量 表达 式 ( 像 24 





* 60 这 样 的 表达 式 ) 在 编译 时 就 会 被 包装 为 常量 。 
在 现在 的 Diksam 中 ， 以 数值 的 加 减 乘除 和 模 





减 号 、 比 较 、 单 目 ! 为 对 象 。 


为 表达 式 添加 类 型 
在 Diksam 表达 式 的 分 析 树 中 ， 





UD 





每 个 节点 都 保存 着 自己 的 类 型 。 








译 器 中 定义 了 用 来 表示 表达 式 的 结构 体 ( 见 下 面 代 码 ，diksamc.h )。 


struct Expression tag { 


TypeSpecifier *type; ‘EYE 


ExpressionKind kind; 一 全 加 二 人 se 有 sa 三 < 


nl en 
mom 


以 联合 体 的 形式 保存 类 别 对 应 的 值 


、+ 进行 的 字符 串 连 接 、 单 目 


在 Diksam 编 














DVM Boolean 

lol 

double 

DVM Char 
IdentifierExpression 
CommaExpression 
AssignExpression 
BinaryExpression 
Expression 
Expression 
FunctionCallExpression 
Tnenememeon Demmenk 


CastExpression 
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Booleannvalue, 
ey 
Queenwe 
ese ae 
identifier; 

comma; 

assign expression; 
lel bn ey (So 
mm ue eeeoeon 
lere tee Malele 

Fume tome une nony 
TIE 本 ec 


cast: 








出 
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} ap 


eu 


比如 3 这 样 的 整数 值 节点 被 定 为 int 型 ，int 型 变量 的 类 型 也 被 定 为 int 
型 ， 但 是 像 (1 + 0.5) 这 样 的 表达 式 就 要 同时 分 析 表 达 式 左边 和 右边 的 情况 来 
适当 地 扩展 类 型 。 

看 了 Expression 结构 体 的 定义 可 能 就 会 明白 ， 这 个 结构 体 的 type 成 员 保 
存 了 表达 式 的 类 型 ， 它 所 指向 的 结构 体 Typespecifier 的 定义 如 下 (定义 在 / 
include/DVM/DVM_code.h 中 )。 




















struct TypeSpecifier tag { 
DVM BasicType pasdcaeypes 
Tee ee, 
p3 
枚 举 类 型 DVM_BasicType 的 定义 如 下 所 示 。 
这 个 枚 举 类 型 能 够 表示 所 有 “基本 类 型 ”。 
typedef enum { 
DVM BOOLEAN TYPE, 
DVM INT TYPE, 
DVM DOUBLE TYPE, 


DVM STRING TYPE 
} DVM BasicType; 


另外 一 个 成 员 derive 以 “派生 类 型 ”的 方式 表示 ， 相 关 的 定义 如 下 (类 型 
定义 保存 在 diksamc.h 中 ,但 是 在 DVM_code.h 中 也 有 与 其 相似 的 定义 ， 两 者 之 
间 的 关系 将 在 后 面 的 章节 中 介绍 )。 

typedef enum { 


FUNCTION DERIVE 
} DeriveTag; 



































typedef struct { 
ParameterList oarame tect 
} FunctionDerive; 


typedef struct TypeDerive tag { 
DeriveTag tag; 
ma 
EUneEnienpereefunmeEnen 本 OF 
0 
IEERAEEE TypeDerive tag “em 
} TypeDerive; 
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在 《征服 数组 和 指针 》 
一 书 中 也 做 了 介绍 ， 可 
以 访问 下 面 的 网 址 阅读 。 
http://avnpc.com/ 
pages/devlang#pointer 


























在 C 语言 的 情况 下 ， 函 
数 名 在 表达 式 中 会 被 转 
换 为 “指向 函数 的 指针 ”， 
但 是 在 Diksam 中 没有 做 
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struct TypeSpecifier tag { 
DVM BasicType BacdegEvees 
TypeDerive *derive; 

















枚 举 类 型 DeriveTag 是 一 种 派生 类 型 的 表现 。 在 现在 的 Diksam 中 还 没有 





数组 之 类 的 类 型 


4， 目 前 存在 的 派生 类 型 具有 函数 类 起 

















| ( FUNCTION DERIVE )。 


函数 (派生 类 型 ) 的 定义 保存 在 FunctionDerive 中 ， 具 体 来 说 就 是 参数 的 类 





型 信息 。 

















到 底 什 么 是 派生 类 型 ? 这 个 话题 在 《征服 C 指针 》 中 已 经 举例 做 了 大 致 地 说 
明 *。 比 如 Diksam 的 print () 函数 ， 它 的 定义 就 成 了 下 面 这 样 。 





TEST SS 











此 时 , 被 称 为 print oa “返回 int 的 函数 (参数 为 string 类 
函数 (参数 为 string 类 型 ”这 





型 ”*。 在 应 用 了 函数 调用 运算 符 () 后 ， 可 以 把 “ 函 
部 分 看 作 是 int 型 。 





因为 TypeDerive eh next ， 所 以 这 个 派生 类 型 可 以 用 链表 形式 链 








这 种 费力 不 讨好 的 事 。 





但 是 ， 现在 还 没有 这 样 
的 语法 结构 支持 这 种 类 
型 的 声明 ， 所 以 无 法 使 
。Diksam 最 终 会 引 
入 delegate 类 型 ， 但 
与 函数 的 派生 无 关 。 























接 。 因 此 ， 可 以 表示 为 “返回 “返回 int 的 函数 (参数 为 string 类 型 ) 


数 (无 参数 六 *。 如 果 把 数组 也 看 作 是 派生 类 型 的 一 种 ， 那 么 可 以 表示 为 “ 


“int 的 数组 的 数组 ”的 函数 ( 参数 为 string 类 型 





























型 yy 


说 起 来 ， 现 在 还 不 能 声明 “函数 型 的 变量 *"， 也 没有 数组 。 因 此 ， 现 阶段 函 
数 调用 的 语法 规则 如 果 像 下 面 这 样 定义 的 话 ， 就 没有 必要 表现 为 派生 类 型 








primary expression 
DENTEnR earnametenalls te ee 


图 增加 转换 节点 














是 因为 在 下 一 个 版 本 中 考虑 到 要 引入 数组 ， 所 以 进行 





了 如 下 实现 。 


4 了 。 但 


在 为 表达 式 添加 类 型 的 过 程 中 ,会 加 入 如 6.2.3 节 中 说 明 的 转换 节点 。 当 前 


编译 时 默认 执行 的 类 型 转换 如 下 所 示 。 





e 双 目 运算 中 的 类 型 转换 


int 和 double 在 运算 时 会 将 int 转换 为 double。 
还 有 ， 左 边 是 string 类 型 的 运算 时 ， 会 把 右边 转换 为 stringo 
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出 
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J8 





e 赋值 时 的 类 型 转换 
赋值 时 ， 会 根据 左边 调整 右边 的 类 型 ( += 之 类 的 赋值 运算 符 也 是 一 样 )。 
对 于 函数 的 实际 参数 以 及 参数 的 返回 值 在 赋值 时 也 进行 同样 的 转换 处 理 。 





















































函数 内 的 变量 声明 
在 处 理 int a; 这 样 的 声明 语句 时 , 在 create.c 的 阶段 会 创建 Declaration 结 
构 体 ， 其 定义 如 下 。 


typedef struct { 





char *name; 
TypeSpecifier Eee 


Expression *initializer; 
Im variablenindex, 
DVM Boolean Telocal 


} Declaration; 


在 create.c 的 阶段 ，Declaration 结构 体 中 设置 了 变量 名 ( name )、 
(type ) 以 及 构造 咀 数 ( initializer )。 
由 于 声明 是 语句 的 一 种 ， 在 Declaration 结构 体 中 以 成 员 方 式 保存 
着 Statement 结构 体 的 联合 体 ， 但 是 在 fix_tree.c 中 就 另 当 别论 了 。fix tree.c 中 
将 Declaration 结构 体 链 接 成 了 一 个 链表 。 
/* 将 Declaration 结构 体 连 成 链表 的 结构 体 */ 


typedef struct DeclarationList tag { 
Declaration *declaration; 














本 





SECEEDScLSEaEIICRENTEEEESSRETS 区 可” 
} DeclarationList; 


在 函数 以 外 的 变量 声明 通过 链表 DeclarationList 保存 在 DKC_Compiler 中 。 
与 此 相对 ， 在 函数 内 声明 的 变量 的 作用 范围 是 程序 块 ， 因 此 DeclarationList 保 
存在 程序 块 ( 即 Block ) 中 。 

在 6.3.3 节 中 讲 过 ， 表 示 程 序 块 的 Block 结 构 体 的 声明 在 其 中 
的 aeclaration list 中 保存 了 当前 程序 块 中 的 声明 。 

函数 的 形式 参数 由 于 可 以 被 当做 函数 内 的 局 部 变量 来 使 用 ， 因 此 这 些 变量 的 

声明 被 设置 在 了 函数 最 外 层 的 程序 块 中 。 接 下 来 要 加 入 的 是 局 部 变量 。 

与 此 同时 ,将 对 Declaration 结构 体 中 还 没有 设置 的 variable 
index 和 is_local 进行 设置 。 


is_local 用 来 表示 是 否 有 局 部 变量 的 标识 ， 在 函数 内 声明 变量 的 同时 设置 
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Diksam 的 栈 
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其 值 ，variable_index 为 水 数 内 声明 的 局 部 变量 分 配 编号 (最初 的 形式 参数 
为 0)。 

局 部 变量 (包括 参数 ) 在 栈 中 被 创建 ， 栈 中 的 变量 可 以 使 用 基于 base 的 偏 
移 量 进行 引用 ， 具 体 请 见 6.2.5 节 。variable index 就 是 这 个 “ 偏 移 量 ”， 但 
是 这 里 稍微 有 点 复杂 。 

接 下 来 我 们 看 一 下 Diksam 的 栈 ， 它 实现 了 DVM_Value 类 型 的 数组 ， 并 且 
这 个 数组 可 以 继续 增 大 下 标 进行 扩展 。Diksam 此 时 的 状态 如 图 6-5。 


调用 func (1,2,3) 
variable index 的 值 | 函数 调用 者 










































































































































































运行 时 的 偏 
移 量 从 这 里 
开始 偏 移 ~ 
5]| 局 部 变量 3 















































func () 中 的 运算 
所 使 用 的 楼 


增长 方向 
在 现 阶段 的 编译 需 实 现 中 ，vazriable_inadex 从 第 一 个 形式 参数 开始 顺序 
增长 ， 其 中 并 没有 将 返回 信息 考虑 进去 。 因 此 ，variable_index 和 运行 时 的 






































偏 移 量 只 能 直接 偏 移 到 返回 信息 下 面 的 局 部 变量 。 

当然 ， 因 为 已 知 返回 信息 的 字 节 大 小 ， 所 以 对 于 局 部 变量 来 说 ， 加 上 它 的 大 
小 后 继续 编号 并 非 难 事 。 但 是 ， 返 回信 息 的 字 节 大 小 依赖 于 DVM 的 实现 ， 因 此 
我 想 尽 力 避 人 免 将 依赖 于 返回 信息 的 值 租 入 到 字 节 码 中 。 

最 重要 的 是 ， 现 在 的 字 节 码 只 生成 在 内 存 中 ， 并 没有 以 文件 等 形式 保存 起 
来 ， 因 此 即使 谋 入 了 【返回 信息 的 值 )， 实 际 上 也 没有 什么 坏处 。 但 如 果 将 来 要 
生成 与 Java 的 class 文件 类 似 的 产 出 物 时 ， 可 能 就 会 出 现 问 题 。 随 着 DVM 版 本 
升级 ， 返 回信 息 的 字 节 大 小 也 会 随 之 发 生变 化 ， 会 出 现 之 前 编译 的 文件 在 新 版 
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DVM 中 不 能 运行 的 困扰 。 

于 是 ，Diksam 编译 需 姑 且 先 生成 连续 的 编号 ， 在 执行 前 (加 载 DVM 之 后 ) 
再 进行 转换 〈 请 参考 6.4.1 节 的 小 标题 3 )。 

话说 回来 ， 因 为 Diksam 中 变量 的 作用 域 是 程序 块 ， 因 此 在 下 面 这 段 代码 
生成 字 节 码 的 时 候 ，a 和 b 如 果 分 配 的 是 同一 个 内 存 空间 (同一 个 variable_ 
index ) 的 话 ， 就 可 以 节约 栈 空间 了 ,因此 在 Diksam 中 的 这 种 情况 下 会 为 它们 单 
独 生 成 索引 。 


SE (0 
rE 

















jeuse 
double b; 
} 
Diksam 会 为 没有 初始 化 的 局 部 变量 决定 取 值 ， 不 会 出 现 像 C 那样 的 不 定 值 。 
在 调用 函数 的 时 候 ， 处 理 器 会 用 0 或 者 null 之 类 的 值 为 变量 初始 化 。 此 时 ， 虽 
然 a 和 b 都 处 于 同一 内 存 空间 ， 但 是 由 于 类 型 不 同 ， 因 此 它们 不 能 够 用 同样 的 位 
模型 进行 初始 化 。 








图 标识 符 和 声明 的 绑 定 
在 表达 式 中 保存 变量 或 者 函数 名 的 ， 是 保存 在 Expression 结构 体 中 的 联 


合体 成 员 IdentifierExpression 结构 体 。 





typedef struct { 
ehat *name; 
DVM Boolean is function; 
wnaonel 
FunctionDefinition *function; 
Declaration *declaration; 
by mp 
} IdentifierExpression; 


这 里 的 function 或 者 declaration 中 存放 的 是 水 数 定义 或 者 变量 声明 。 
在 搜索 局 部 变量 的 时 候 , 会 在 与 “当前 程序 块 ” 相 互 连 接 的 Declaration 结 
构 体 中 搜索 ， 因 此 ，ifx xxx 系列 的 函数 会 把 当前 程序 块 作为 参数 传递 进来 。 
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6.3.5 | Diksam 的 运行 形式 一 一 DVM_Executable 


虽然 总 算 能 通过 fix_tree.c 生成 字 节 码 了 ,但 是 对 于 程序 的 运行 来 说 不 只 需要 
字 节 人 码 ， 还 需要 全 局 变量 列表 等 必 不 可 少 的 信息 。 在 Diksam 中 定义 了 名 为 DVM_ 
Executable 的 结构 体 用 来 保存 字 节 码 和 刚才 提 到 的 那些 相关 信息 ，generate.c 
的 全 部 使 命 就 是 创建 DVM_Executable 结构 体 。 

因此 ， 首 先 要 用 下 面 这 上 段 代码 来 说 明 一 下 DVM Executable 结构 体 
(DVM code.h )。 

















struct DVM Executable tag { 





lm constant yDoolneoune, 
DVM_ ConstantPool eonstantaool 

aa globalmy ordealee ome 
DVM Variable onlob elvaniadle 
alas Fumetnondeoume, 

DVM_ Function *function; 

Tnt Godenmsnze. 

DVM Byte *cCode; 

bane me ne Se 
DVM LineNumber mcmeer 

lalis, meecue i ae be 





如 代码 所 示 ， 利 用 可 变 长 数组 保存 以 下 信息 。 


. 常量 池 ( constant_pool ) 


呆 存 常量 的 内 存 空间 。 





二 


2. 全 局 变量 ( global_variable ) 
保存 全 局 变量 列表 。 











3. 函数 ( function ) 
采 存 函数 定义 。 将 函数 里 要 执行 的 语句 的 字 节 码 保存 在 其 内 部 ( DVM_Function 结 
构 体 )。 


4. 顶层 结构 的 代码 ( code ) 
为 为 Diksam 可 以 在 顶层 结构 中 书写 代码 ， 此 成 员 用 来 保存 这 些 代码 生成 的 字 节 码 。 
























































5. 行 号 对 应 表 ( line_number ) 
保存 字 节 码 和 与 之 对 应 的 源 代码 的 行 号 。 
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6. 栈 的 需要 量 ( need stack size) 
保存 顶层 结构 的 代码 对 栈 的 需要 量 。 
每 个 函数 对 栈 的 需要 量 都 保存 在 各 自 的 DVM_Function 中 。 






































常量 池 


保存 常量 的 内 存 空间 被 称 为 “常量 池 ”。 
比如 ,将 double 值 2.5 入 栈 的 时 候 ，Diksam 的 字 节 码 表示 为 : 
push double 2.5 

在 实际 输出 字 节 码 的 时 候 ,， 命令 push_ double 应 该 会 被 分 配 到 某 个 代号 
(编号 )。 在 DVM 中 会 分 配 到 十 进 制 的 6， 因 此 ，6 被 作为 一 个 字 节 输出 到 字 节 码 
中 。 那 么 2.5 该 怎么 办 呢 ? 在 我 的 环境 中 double 占 8 个 字 节 ， 因 此 在 6 后 面 应 
该 紧 接 着 输出 这 8 个 字 节 。 

老实 说 ， 因 为 现在 的 Diksam 只 在 内 存 中 保存 字 节 码 ， 编 译 带 环境 
中 double 型 的 字 节 表现 可 以 直接 输出 到 字 节 码 中 。 但 是 ， 如 果 将 字 节 码 输出 到 
文件 的 时 候 就 会 出 问题 了 。 这 是 因为 执行 字 节 码 的 机 器 和 编译 字 节 码 的 机 顺 可 能 
会 用 不 同 的 形式 表示 double 型 数据 。 

“ 字 节 码 中 以 某 种 正规 化 的 表现 方式 进行 保存 ， 读 取 的 时 候 再 进行 转换 。” 在 
进行 这 个 处 理 的 时 候 ， 如 果 字 节 码 中 间 突 然 出 来 一 个 要 转换 的 2.5， 那 么 处 理 起 
来 会 很 麻烦 。 另 外 ， 不 止 是 实数 ,字符 串 也 是 一 样 ， 如 果 在 字 节 码 中 突然 出 现 了 
一 个 能 入 的 “hello, worldm”， 这 在 普通 的 程序 员 看 来 也 没 那么 美观 吧 。 

因此 我 们 在 这 里 使 用 了 常量 池 。 常 量 池 数 组 中 的 各 个 元 素 组 成 了 下 面 的 结 
构 体 。 


typedef enum { 
DVM_CONSTRANT INT， 
DVM CONSTANT DOUBLE, 
DVM CONSTANT STRING 


} DVM ConstantPoolTag; 































































































typedef struct { 
DVM ConstantPoolTag tag; 
nionel 











”从 而 导致 解释 字 节 码 的 方式 也 不 同 。 一 一 译 者 注 
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int GTTE 
double Eeemee 
DM est me 
Do 
} DVM ConstantPool; 


如 上 面 代 码 所 示 ， 把 保存 int 、double 或 者 字符 串 的 成 员 定 义 为 一 个 联合 体 。 

在 Diksam 的 字 节 人 码 中 ， 下 列 常量 不 会 被 舱 入 到 其 中 ， 而 是 保存 到 常量 池 。 
字 节 码 中 只 保存 常量 池 中 对 应 的 索引 值 。 

e@ 负数 或 者 65536 以 上 的 整数 

@ 0 或 者 1 以 外 的 实数 

e@ 字符 串 

1~2 字 节 的 整数 以 及 实数 0 或 者 1 使 用 下 列 命 令 进行 处 理 。 


@ push int lbyte 








在 字 节 码 上 用 这 个 命令 将 其 





的 1 个 字 节 作为 整数 保存 。 





a 








® push int 2byte 
在 字 节 码 上 用 这 个 命令 将 其 后 的 两 个 字 节 作为 整数 并 以 大 尾 序 保存 。 



































@ push double 0 
实数 运算 中 出 现 0 的 时 候 








比 命令 ( 这 里 效仿 了 JVM )。 


;和 
+ 





® push double 1 


实数 运算 中 出 现 1 的 时 候 使 用 此 命令 ( 这 里 也 效仿 了 JVM )。 

前 面 提 到 过 字 节 码 中 只 保存 着 常量 池 中 用 来 引用 常量 的 索引 值 ， 因 为 1 个 
字 节 存 不 下 这 个 索引 值 ， 所 以 现在 Diksam 在 实现 时 使 用 了 两 个 字 节 ， 如 果 使 
用 push_dqouble 这 样 的 命令 会 将 其 后 的 两 个 字 节 的 整数 值 以 大 尾 序 保存 起 
来 。 可 是 ， 两 个 字 节 是 否 就 够 用 了 呢 ? 这 是 最 大 的 悬念 。 实 际 上 这 里 也 是 在 效仿 
JVM， 我 想 可 能 修正 一 下 这 里 会 更 好 。 

另外 ， 相 同 的 常量 在 程序 中 多 次 出 现 的 时 候 ， 虽 然 在 常量 池上 分 配 同 样 的 入 
口 可 以 节约 常量 池 的 内 存 空 间 ， 但 是 现在 的 Diksam 没有 这 么 做 。 这 里 照例 只 是 
偷 了 个 懒 而 已 。 


补充 知识 。 YARYV 的 情况 


Diksam 将 一 部 分 常量 的 值 保存 到 了 常量 池 中 。 这 个 结构 体 实际 上 是 效仿 JVM， 但 
是 在 Ruby 的 VM， 也 就 是 YARV ( Yet Another Ruby VM ) 中 ， 就 把 常量 值 垦 入 到 了 字 
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节 码 中 。 
这 么 做 的 理由 是 ， 像 常量 池 这 样 把 常量 值 保存 在 其 他 地 方 并 通过 配置 索引 指定 操作 
数 的 方法 ， 可 能 会 对 性 能 产生 不 利 的 影响 %( 因为 是 间接 访问 )。 
还 有 ， 在 YARV 中 的 指令 不 止 1 字 节 ， 在 处 理 器 中 为 其 分 配 了 1 个 int 的 大 小 
( 这 意味 着 YARYV 的 指令 不 是 一 个 严格 的 “ 字 节 码 ”)。 虽然 可 惜 了 这 些 内 存 ， 但 是 对 速 
度 还 是 非常 有 利 的 。 


Diksam 如 果真 的 考虑 性 能 的 话 ， 也 许 应 该 向 YARV 学 习 一 下 *。 



























































































































































































































































Java 当初 的 使 用 方法 被 
假设 为 是 从 网 络 下 载 的 
小 应 用 程序 ， 因 此 字 节 
码 是 个 必然 的 选择 。 全 局 变量 


DVM_Executable 结构 体 的 global variable 成 员 ， 就 如 同 其 字面 的 
含义 表示 的 是 全 局 变量 。 从 字 节 码 引 用 全 局 变量 的 时 候 ， 就 会 使 用 到 这 个 DVM_ 
Variable 型 的 数组 的 索引 。 

比如 ， 将 整数 型 的 全 局 变量 的 值 push 到 栈 中 的 命令 是 push static_ 
1nts 

使 用 上 述 命 令 ， 将 其 后 的 两 个 字 节 以 大 尾 序 存 人 数组 中 并 延续 索引 编号 。 

DVM_Variable 的 定义 如 下 。 



































typedef struct { 
char *name; 
DVM TypeSpecifier op 
} DVM Variable; 


一 目 了 然 ， 这 里 表示 的 是 全 局 变量 的 名 称 和 类 型 。 

全 局 变量 的 类 型 是 为 了 在 开始 运行 的 时 候 进 行 初始 化 以 及 垃圾 回收 时 使 
用 的 。 

变量 名 到 目前 为 止 还 没有 用 到 。 前 面 也 提 到 过 ， 利 用 索引 从 字 节 码 中 引用 全 
局 变量 。 但 是 我 想 ， 在 实现 调试 器 的 时 候 ， 变 量 名 是 一 个 必要 的 信息 。 

男 外， 使 用 DVM_Typespecifier 结构 体 来 保存 全 局 变量 的 类 型 。 在 编 
译 时 类 型 信息 被 保存 到 类 型 信息 Typespecifier 结构 体 中 。 也 就 是 说 ,在 
generate.c 中 实现 从 TypeSpecifier 结构 体 到 DVM_TypeSspecifiez 结构 体 的 
复制 。 
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表示 函数 的 结构 体 DVM_Function， 其 定义 如 下 所 示 。 


typedef struct { 








DVMETV DCS Bee wl 

Sha xmame 

int Bearamete neoume. 
DVM LocalVariable Searsanesen. 

DVM_ Boolean lmemeed, 
sbiade Locallvar lo ledeount: 
DVM LocalVariable ocoll va oe 
nt Ceodensizes 

DVM Byte EOde 

aa me 要 mme 大 二 2 
DVM LineNumber le ml en 

3 neegstace ze 


DvVepuneeon, 
































type 是 返回 值 的 类 型 , name 是 函数 名 。parameter 和 local variable 用 
下 面 给 出 的 结构 体 保存 名 称 和 类 型 。 类 型 是 在 初始 化 局 部 变量 时 使 用 的 ,但 是 现 
在 还 没有 用 到 。 


typedef struct { 











char *name; 
BVMELY DSS BeenElcs *type; 
} DVM LocalVariable; 





在 DVM Function 中 的 is_implemented 是 一 个 标志 。 它 表示 
数 是 否 在 这 个 DVM_Executable 中 实现 ”。 

比如 print() 函数 由 原生 郴 数组 成 ， 使 用 者 编写 的 Diksam 程序 中 
并 没有 对 其 进行 过 定义 ， 因 此 ， 这 个 函数 对 应 的 DVM_Function 的 is 
implemented 为 false。 即 使 是 这 样 的 函数 也 要 被 登记 到 DVM_Eunction 的 对 
应 表 中 ， 因 为 在 函数 调用 的 时 候 必须 要 通过 DVM_Function 对 应 表 中 的 索引 值 。 

DVM_Function 结构 体 的 成 员 ， 指 针 code 指向 该 函数 对 应 的 字 节 码 。 


区 到 顶层 结构 的 字 节 码 


DVM_Executable 结构 体 的 成 员 ， 指 针 code 指向 顶层 结构 对 应 的 字 节 码 。 
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关于 如 何 生 成 字 节 码 将 在 6.3.12 节 中 作 介 绍 。 


6.3.10 | 行 号 对 应 表 


对 于 执行 字 节 码 的 语言 来 说 ， 发 生 错 误 时 ， 如 果 不 能 提示 发 生 的 错误 在 源 
文件 中 的 行 号 ， 对 于 使 用 者 来 说 就 太 不 友好 了 。 因 此 ，DVM_Executable 的 成 
员 1ine_numbez 保存 了 字 节 码 上 的 位 置 对 应 的 源 文件 的 行 号 。 

这 种 对 应 关系 的 类 型 用 DVM_LineNumber 结构 体 表示 ， 定 义 如 下 。 











typedef struct { 

int line number;/* 源 代码 的 行 号 */ 

int start pc;/* 字 节 码 的 开始 位 置 */ 

int pc count;/* 从 start pc 开始 ， 接 下 来 有 几 个 字 节 的 指令 对 应 着 同一 line number */ 
} DVM LineNumber; 


上 述 信 息 ， 在 generate.c 的 generate code() 函数 中 与 字 节 码 同时 生成 。 
因为 1 行 源 代码 通常 会 生成 多 个 指令 ， 所 以 在 为 同一 行 源 代码 生成 编码 时 ， 不 增 
加 DVM LineNumber 对 应 表 的 元 素 ， 只 增加 pc_count。 

这 里 只 保存 了 顶层 结构 的 行 号 对 应 表 ， 子 数 内 的 行 号 保存 在 各 自 的 DVM_ 
Function 对 应 表 中 。 






































在 crowbar 中 ， 在 每 次 进行 人 栈 操作 时 ， 都 会 检查 栈 的 空间 。 只 要 空间 不 足 
就 会 用 realloc () 进行 扩展 。 

但 是 ，Diksam 是 执行 字 节 码 的 语言 ， 因 此 我 们 对 它 的 执行 速度 还 是 有 所 期 待 
的 ， 所 以 我 们 在 这 里 要 避免 “每 次 都 进行 栈 空间 检查 ”的 做 法 。 

因此 ,在 DVM_Executable 的 成 员 need_stack_size 中 保存 了 顶层 结构 
所 需 的 栈 空间 大 小 。 各 函数 需要 的 栈 空间 大 小 保存 在 DVM_Function 对 应 表 中 。 

这 里 的 重点 是 : 不 论 是 顶层 结构 还 是 函数 ， 它 们 所 需要 的 栈 空 间 大 小 都 是 在 
编译 时 决定 的 。 
虽然 在 前 面 已 经 提 到 过 ,但 是 在 这 里 还 要 再 说 一 下 ，DVM 将 完全 信任 编译 
器 生成 的 字 节 码 。 另 外 ，Diksam 的 编译 带 绝 对 不 会 生成 下 例 这 样 的 字 节 码 。 
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A oie sual oes 
2m 0 


在 这 个 例子 中 ， 会 无 限 循环 地 将 5 入 栈 ， 直 到 内 存 溢出 。 但 是 ，Diksam 从 语 
法 上 就 杜绝 了 编写 这 种 ( 能 生成 类 似 于 上 述 例 子 中 字 节 码 的 ) 源 代码 的 可 能 。 因 
此 ， 扫 描 全 部 push 系列 的 指令 ， 并 计算 出 push 所 需 内 存 总 量 ， 用 此 方法 就 可 以 
计算 出 顶层 结构 或 者 各 函数 所 需 的 栈 空 间 的 大 小 了 (在 现在 的 实现 中 ， 并 没有 把 
出 栈 的 内 存 计算 在 内 ， 因 此 这 个 值 会 略 大 一 些 ， 但 是 多 一 些 的 空间 并 不 会 造成 问 
题 ， 所 以 就 保持 现状 了 )。 各 个 指令 消耗 的 栈 空 间 量 将 会 保存 在 davm_opcode 
info 数组 中 ( 请 参考 6.3.12 节 )。 

基于 上 述 做 法 ， 检 查 栈 大 小 有 以 下 两 个 最 佳 时 机 。 

e@ 程序 开始 执行 时 ， 检 查 栈 空间 是 否 能 满足 顶层 结构 的 需要 。 

e 函数 开始 执行 时 ， 检 查 栈 空间 是 否 能 满足 这 个 函数 的 需要 。 在 出 现 深层 递归 需要 消 

耗 大 量 栈 空间 的 情况 下 ， 会 数 度 进行 检查 ， 对 栈 空间 的 需求 也 会 迅速 地 增长 。 


6.3.12 | 生成 字 节 码 ( generate.c ) 


对 于 生成 字 节 码 来 说 ， 大 部 分 麻烦 事 已 经 在 fix_tree.c 中 做 完了 ， 因 此 gener- 
ate.c 要 做 的 事情 ， 大 概 就 只 剩 下 “按照 自 上 而 下 的 顺序 遍历 分 析 树 然后 吐出 字 节 
码 ” 了 。 

下 面 我 们 就 来 看 一 下 到 底 要 “吐出 ”的 是 什么 样 的 字 节 码 。 


园 字 节 码 的 结构 

在 这 个 小 节 我 将 整理 出 至 此 为 止 一 直 没 有 明确 的 字 节 人 码 的 结构 。 

字 节 人 码 由 命令 (指令 ，instruction ) 和 操作 数 ( operand ) 组 成 。 

操作 数 可 以 想 成 是 C 等 语言 中 函数 的 参数 。 比 如 在 例子 push_int 10 中 
push_int 指令 处 理 了 一 个 操作 数 ， 这 个 指令 的 操作 数 是 常量 池 中 的 索引 值 ， 这 
个 值 是 10。 

Diksam 的 字 节 码 以 字 节 为 单位 (否则 就 不 能 叫 “ 字 节 码 ”了 )。 指 令 也 用 一 
个 字 节 来 表示 。 

还 是 以 上 面 的 例子 来 说 ，push_int 对 应 的 值 是 3。 这 里 用 枚 举 类 型 DVM_ 
Opcode 来 表示 ( DVM _code.h )。 
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typedef enum { 

DVM PUSH INT 1BYTE = 1, 

DVM PUSH INT 2BYTE, 

DVM PUSH INT, 这 个 是 push int ( 也 就 是 3 ) 
DVM PUSH DOUBLE 0, 

DVM PUSH DOUBLE 1, 

DVM PUSH DOUBLE, 

DVM PUSH STRING 

中 间 省 略 ) 

} DVM Opcode; 


操作 数 有 以 下 三 种 。 
e 1 个 字 节 的 整数 。 直 接 保存 跟 在 指令 后 面 的 操作 数 。 


e@ 两 个 字 节 的 整数 。 把 跟 在 指令 后 面 的 操作 数 作为 大 尾 序 保存 。 
e@ 常量 池 的 索引 值 。 该 值 现在 是 两 个 字 节 ，, 把 跟 在 指令 后 面 的 索引 值 作 为 大 尾 序 保 存 。 































































































什么 样 的 命令 处 理 什么 样 的 操作 数 都 定义 在 了 /share/opcode.c 中 。 


OpcodeInfo dvm opcode info[] = { 
{ "dummy" ， "um 0 5 

npushe lintel mee IO 和 本 

uousheimne me se 

Wael ae we 1 

ems hem 

noushdonple TOL 是 光 

ms hclomle nn 

am Sen Sr 1 

( 以 下 省 略 ) 


这 个 数组 用 于 调试 时 反 编 译 功 能 ( disassemble.c ) 之 外 的 必须 顺序 分 析 字 节 
码 的 情况 。 

这 里 的 b 代表 1 个 字 节 的 整数 ，s 代表 两 个 字 节 的 整数 ，p 代表 常量 池 的 索 
引 值 。 在 表示 字符 串 的 时 候 ， 必 须要 使 用 取得 多 个 操作 数 的 指令 。 接 下 来 的 0 和 
1 的 数值 就 是 它们 指令 本 身 所 需 的 栈 空间 。 请 参考 6.3.11 市 。 


{ 
{ 
人 
人 
{ 
人 
‘ 





国 生成 字 节 码 
为 了 生成 字 节 人 码 ， 在 generate.c 中 包含 了 以 下 函数 。 


static void 
generaeeneode (Opeodeeuter op ne menumoer eveode ede) 


这 个 函数 在 获取 指令 和 行 号 的 同时 ， 采 用 可 变 长 参数 来 传递 操作 数 。 使 用 的 
例子 如 下 。 
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局 部 变量 相关 的 指令 


实际 上 在 现在 的 实现 
中 ， 局 部 变量 保存 在 栈 
中 ， 栈 的 实体 是 DVM_ 
Value 联合 体 的 数组 ， 
因此 这 种 指令 本 身 没有 
必要 根据 类 型 区 别 使 
。 但是， 考虑 到 要 以 
字 节 为 单位 计算 局 部 变 
量 的 地 址 ， 为 了 在 实现 
上 节省 内 存 空 间 ， 在 
Diksam 中 还 是 分 开 变 
成 了 多 个 指令 。 
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/* 生成 push int 的 代码 。 

* cp_idx 是 常量 池 的 索引 值 。 

< 

gemesateleede (oe emer 


6.3.13 | 生成 实际 的 编码 


本 证 将 要 介绍 Diksam 源 代 码 的 组 成 元 素 实 际会 转换 成 什么 样 的 字 方 码 。 





图 标识 符 
标识 符 有 以 下 几 种 。 
e 局 部 变量 
@ 全 局 变量 
e 函数 
局 部 变量 ( 是 左 值 的 情况 下 ) 将 会 生成 如 表 6-3 的 字 节 码 。 操 作 数 全 部 用 两 
个 字 闻 的 整数 、 栈 上 的 索引 值 (基于 base 的 偏 移 量 ) 表示 。 































































































指令 含义 

push stack int 将 int 类 型 的 局 部 变量 值 保存 到 栈 中 
push stack double 将 double 类 型 的 局 部 变量 值 保存 到 栈 中 
push stack string 将 string 类 型 的 局 部 变量 值 保存 到 栈 中 











这 三 个 指令 只 是 针对 不 同 的 类 型 ， 但 做 的 事情 都 一 样 。 在 枚 举 类 型 DVM_ 
opcode 中 , 指令 以 int、double、string 的 顺序 排列 , 因此 生成 字 节 码 的 操作 
可 以 用 如 下 的 方式 进行 。 


Wu ho tae 
emernateaeode (oo zor > Ime me 
DVM PUSH STACK INT 
ocraopeodene vcore (ex Ulm 





uve clarmataon 
= Was- oa ea (Ewiaa) 
expe Uenme El elanration Serioblen me 











get _ opcode type offset() 国 数 ， 如 果 参 数 是 boolean 或 者 int 则 
返回 0。 如果 是 double 则 返回 1，string 则 返回 2*。 

当 参 数 是 poolean 的 时 候 也 返回 0， 这 是 因为 虽然 在 Diksam 语言 中 
有 boolean 类 型 ， 但 是 DVM 中 并 没有 boolean 类 型 ， 所 以 用 int 代 蔡 。 



























































相关 
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在 全 局 变量 中 使 用 push ( 类 型 名 ) static 指令 代替 push ( 类 型 名 ) 
stack 指令 。 操 作 数 是 全 局 变量 的 索引 值 。 

在 函数 的 情况 下 ， 根 据 push_function 的 索引 (DVM_Function 数组 的 
下 标 ) 入 栈 ， 但 是 在 执行 时 被 改写 成 了 别 的 方式 。 详 细 请 参考 6.4.1 节 。 





国 双 目 运算 符 
双 目 运算 符 生 成 的 指令 如 表 6-4 所 示 。 表 中 ( 类 型 ) 的 部 分 ， 请 看 作 是 int、 
double 或 者 string, 但 是 string 只 有 相 加 和 比较 的 运算 。 


































































































表 6-4 运算 符 指令 含义 

双 目 运算 符 的 指令 add_( 类 型 ) 加 法 运算 
- sub_( 类 型 ) 减法 运算 
六 mul (类 型 ) 乘法 运算 
/ div_( 类 型 ) 除法 运算 
多 mod (类 型 ) 模 运 算 
下 eq_( 类 型 ) 等 值 比较 
Ie ne_( 类型) 不 等 值 比较 
< gt_( 类 型 ) 小 于 
<= ge (类型) 小 于 等 
> 1t_( 类 型 ) 大 于 
>= Le 类 型 ) 大 了 
&& logical and 逻辑 AND 
| | logical or 逻辑 OR 








这 些 指令 没有 操作 数 。 


国 单 目 运算 符 

单 目 运算 符 有 单 目的 减 号 和 逻辑 非 (!1)。 也 可 以 把 类 型 转换 看 作 是 一 种 单 目 
运算 符 (目前 会 由 编译 器 自动 插入 )。 

单 目 运算 符 的 指令 如 表 6-5 所 示 。 



























































表 65 指令 含义 

单 月 运算 符 的 指令 minus_( 类 型 ) 符号 反 转 
logical not 逻辑 NOT 
cast int to double 将 int 转换 为 double 
cast double to int 将 double 转换 为 int 
cast boolean to string 将 boolean 转换 为 string 
cast int to string 将 int 转换 为 string 
cast _ double to string 将 double 转换 为 string 
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转 赋值 

现 阶段 的 Diksam 中 还 没有 数组 和 对 象 的 成 员 ， 因 此 赋值 必然 是 以 “变量 名 
= 表达 式 ;” 的 形式 。 

所 以 ,我 们 首先 计算 右边 ， 其 结果 值 可 以 从 栈 中 取得 后 , 使 用 pop_stack_ 
Xxx 或 者 pop_static xxx 让 变量 出 栈 。 

与 C 语言 相同 ，Diksam 的 赋值 本 身 也 是 在 获取 表达 式 的 值 (因此 也 有 可 能 
出 现 像 a = b = ci; 这样 的 赋值 方式 )。 也 就 是 说 ， 在 赋值 结束 后 ， 栈 上 肯定 会 
留 下 一 个 值 。 计 算 右 边 的 值 ， 在 出 栈 赋 给 变量 后 栈 上 就 没有 值 了 ， 因 此 需要 使 
用 duplicate 指令 复制 栈 顶 的 值 并 将 其 人 栈 。 

但 是 ， 实 际 上 很 少 有 人 会 写 a = b = c; 这 样 的 赋值 语句 (也 可 以 说 是 因 
人 而 异 吧 )， 大 部 分 的 情况 没有 必要 特意 使 用 duplicate 复制 栈 上 的 值 。 

因此 ， 生 成 赋值 表达 式 的 时 候 ， 要 把 “这 个 表达 式 是 否 是 表达 式 语句 的 顶级 
表达 式 ” 作 为 标识 进行 传递 ， 如 果 ( 当前 表达 式 ) 是 表达 式 语句 的 顶级 就 不 需要 
使 用 duplicate 了 。 






































图 函数 调用 
再 看 一 下 图 6-5 中 的 例子 ，Diksam 中 国 数 调用 时 ， 栈 会 像 图 6-6 所 示 进 行 增长 。 
首先 ， 按 照 从 前 向 后 的 顺序 对 参数 进行 计算 ， 并 将 其 人 栈 ( Diksam 中 没有 可 
变 长 参数 ， 因 此 没有 必要 像 C 语言 一 样 从 后 面 开 始 入 栈 )。 


调用 func (1,2,3) 
variable index 的 值 上 者 

















































































































运行 时 的 偏 
移 量 从 这 里 一 一 一 1 
开始 信 移 
() 中 的 运算 
用 的 栈 




















增长 方向 
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接着 ， 将 “函数 ”入 栈 (这 个 “函数 ”其 实 是 DVM_VirtualMachine 结 
构 体 中 Function 的 索引 值 。 详 细 请 参考 6.4.1 节 )。 正 如 前 面 写 到 的 ，Diksam 
中 调用 函数 使 用 () 运算 符 ， 函数 名 本 身 就 是 一 个 表达 式 。 使 用 push_ 
function 将 这 个 表达 式 的 值 入 栈 。 

然后 ， 执 行 jnvoke， 从 而 执行 被 调用 的 函数 。invoke 将 保存 着 push_ 
function 的 值 从 栈 中 移出 ,创建 承载 着 返回 信息 的 局 部 变量 的 内 存 空间 ， 并 让 
开始 函数 执行 其 一 系列 动作 。 

详细 请 参考 6.4.3 节 。 




















国 控制 结构 

如 6.2.4 节 中 所 述 ， 像 if£ 语句 这 样 的 控制 结构 在 字 节 码 中 是 使 用 跳 转 命令 来 
实现 的 。 

为 了 实现 跳 转 ， 就 必须 要 知道 跳 转 目标 的 地 址 。 这 里 说 的 “地 址 ”是 指 
在 DVM_Executable 中 的 每 个 函数 ， 或 者 是 保存 在 顶层 结构 中 的 字 节 人 码 的 数组 
( DVM Byte xcode ) 的 下 标 。 

比如 有 下 面 这 样 一 段 代码 。 



































sly a al 
f(a = 0 
a 
} else { 
a=5 
} 
编译 后 生成 如 下 字 节 码 。 
0 push static int 0  # 将 变量 a 的 值 入 栈 
3 push int lbyte 0 # 将 0 入 栈 
SEC 二 能 过 
6 jump if false 17 ”# 如 果 不 相 等 则 跳 转 到 17 
9 push int lbyte 1 # 为 了 赋值 将 工 入 栈 
11 pop_ static int 0  # 将 1 出 栈 赋值 给 a 
2 vila 2 # 跳 到 22 ( 这 段 代 码 的 末尾 ) 
17 push int lbyte 5  # 为 了 赋值 将 5 入 栈 
19 pop_static int 0  # 将 5 出 栈 赋值 给 a 





这 段 代码 中 ， 最 左边 的 数字 就 是 “地 址 ”。 为 了 迎合 机 带 语 言 中 的 说 法 ， 某 
些 特定 的 地 址 使 用 “地 址 码 XX” 的 说 法 表示 。 
在 上 面 的 例子 中 , a 和 0 比较 后 , 在 地 址 码 6 的 地 方 判断 如 果 相 等 就 跳 转 到 地 
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址 码 17。 但 是 问题 在 于 ， 在 地 址 码 6 的 jump_if_false 命令 生成 的 时 候 ， 还 
不 知道 要 跳 转 的 目标 就 是 “地 址 码 17”。 
因此 ，Diksam 的 编译 右 采 用 了 以 下 的 方法 。 
1. 跳 转 命 令 等 在 必须 使 用 地 址 的 时 候 ， 使 用 get_label () 函数 取得 一 个 “标签 ” 
这 里 取得 的 “标签 ”是 指 ， 标 签 对 应 表 的 下 标 。 
2. 字 节 码 生 成 的 最 初 阶段 ， 在 要 写 入 跳 转 目 标 地 址 的 地 方 写 入 暂 定 的 标签 。 
3. 确定 下 来 标签 要 代替 的 位 置 的 地 址 后 ， 使 用 set label () 函数 ， 将 地 址 存 入 标签 













































































































































































对 应 表 。 
4. 字 节 码 全 部 生成 后 ， 根 据 标签 对 应 表 ， 将 写 入 暂 定 的 标签 的 地 方 替换 成 真正 的 
地 址 。 








< Diksam 虚拟 机 


编译 (生成 字 节 码 ) 完成 以 后 ， 就 要 放 到 Diksam 虚拟 机 ( DVM : Diksam 
Virtual Machine ) 中 执行 了 。 
DVM 在 实现 上 使 用 DvM_VirtualMachine 结构 体 来 表示 ( dvm_prih )。 





struct DVM VirtualMachine tag { 


Stack stack; 

Heap heap; 

etatule Stacncny 

aa De 

Function wsE ne en 

IE Eumetniondeoune, 


BVMIExecutable “executanles 


5 


结构 体 的 前 三 个 成 员 保存 了 DVM 运行 时 的 记忆 空间 。 如 代码 所 示 ，DVM 具 
有 以 下 三 个 记忆 空间 。 


























1. 栈 
前 面 已 经 说 过 ， 需 要 在 栈 上 创建 空间 的 有 局 部 变量 、 函 数 的 参数 或 函数 返回 
的 返回 信息 等 。 


DVM VirtualMachine 结构 体 的 成 员 stack， 它 的 类 型 stack 如 下 所 示 。 


typedef struct { 
Ml ES ES 
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Ye 





oe SeEaclacinmeen 

DVM_Value :tae 

BVMEBOoleane Ponmter legs 
} Stack; 


一 目 了 然 ， 栈 的 实体 就 是 DVM_Value 类 型 的 数组 。 
DVM Value 相当 于 crowbar 中 的 CRB Value， 是 一 个 能 够 保存 所 有 (在 
Diksam 中 可 以 使 用 的 ) 类 型 的 联合 体 (DVM.h )。 























typedef union { 
TmnEt Tne a ue 
double emoyeeswauer 
VEObeceepbjeee 

} DVM Value: 


DVM_Value 与 CRB_Value 不 同 , 不 会 根据 类 型 打上 不 同 标 记 。 带 态 语言 中 
类 型 是 可 以 被 识别 的 ， 因 此 不 再 需要 标记 类 型 了 。 

但 是 ,在 垃圾 回收 的 时 候 ， 仅 依靠 静态 的 信息 判断 栈 上 的 值 是 否 是 指针 还 是 
有 些 困 难 的 ， 但 也 可 以 通过 函数 定义 取得 局 部 变量 或 者 参数 的 类 型 。 同 样 是 保存 
在 栈 上 ， 计 算 过 程 中 的 值 的 类 型 却 很 难 弄 清楚 。 

此 ，Stack 结构 体 的 pointer_flags 数组 保存 着 栈 上 的 值 是 否 是 指 
针 。pointer flags 数组 和 stack 的 大 小 相同 ， 可 以 使 用 同一 个 下 标 进行 引用 。 

Stack 结构 体 的 成 员 stack_pointer 是 栈 指示 器 ( stack pointer )， 它 保存 
着 栈 顶 的 索引 值 。 

栈 指 示 器 所 指 的 是 下 次 要 入 栈 的 元 素 的 索引 值 。 实 际 上 已 人 栈 元 素 的 索引 值 
是 一 个 小 于 栈 指示 器 -1 的 值 。 


2. 堆 

堆 是 一 个 通过 引用 进行 访问 的 内 存 区 域 。 现 在 的 Diksam 中 并 不 存在 类 和 对 
象 ， 因 此 现在 的 堆 中 只 保存 字符 串 。 

和 crowbar 一 样 ， 堆 上 的 对 象 以 链表 形式 保存 。 

/* 保存 对 象 的 结构 体 */ 


struct DVM Object _ tag { 
BeecenosaeyEe 












































































































































unsigned int marked:1; 
main 

DVM String Semel 
} ur 
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Sereuee DM Omece ta “ne 


和 


/* 推 的 结构 体 */ 
typedef struct { 


于 下 GUEentaneapees 
aa eurentechreshole 
DVMIODISct oO headerm, 

es 


3. 静态 ( static ) 空间 
DVM VirtualMachine 的 static v 成 员 用 来 保存 全 局 变量 ( 
为 static 和 C 语言 的 关键 字 冲 突 ， 所 以 成 员 的 名 字 用 static_v 表示 )。 
Static 结构 体 的 定义 如 下 。 


typedef struct { 





sl variable count; 
DVM Value vosaraloliey 
Stacdes 


如 代码 所 示 ， 结 构 体 中 保存 着 DVM_Value 的 数组 。 

在 使 用 push_static_int 等 指令 引用 全 局 变量 时 ， 作 为 操作 数 传递 给 指 
令 的 就 是 这 个 数组 的 下 标 。 

另外 , 在 DVM_VirtualMachine 内 用 于 航 入 到 字 节 码 中 的 值 只 能 来 自 同 
一 个 数组 的 下 标 ， 也 就 是 说 ， 在 现在 的 Diksam 语言 中 ,一 个 DVM 只 能 对 应 一 
个 DVM_Executable。 

但 是 很 明显 ,在 DVM_VirtualMachine 内 不 只 保存 了 一 个 DVM_Execut- 
able。 为 了 解决 这 个 问题 ， 有 必要 在 多 个 源 文件 链接 并 执行 的 时 候 进 行 纠 正 ( 请 
参考 8.1.5 节 )。 

DVM_ VirtualMachine 还 有 一 个 属性 pc 用 来 表示 程序 计数 器 ( program 


























counter )。 

程序 计数 器 在 字 节 码 中 起 到 保存 当前 正在 执行 的 指令 地 址 的 作用 (这 里 说 的 
“地 址 ”是 指 保存 着 字 节 码 的 数组 的 下 标 )。 

因此 ， 在 使 用 跳 转 命 令 时 ， 只 需要 把 程序 计数 器 改写 为 要 跳 转 的 目标 就 可 以 
了 。 但 是 ， 实 际 上 DVM_VirtualMachine 结构 体 的 成 员 pc 在 程序 开始 执行 后 
立刻 就 被 复制 到 了 局 部 变量 ,但 在 之 后 却 并 没有 被 回 写 回来 ， 所 以 现在 这 个 成 员 
派 不 上 什么 用 场 。 
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其 余 的 两 个 成 员 function 和 executable 将 在 后 面 的 章节 中 进行 介绍 。 


6.4.1 | 加 载 / 链接 DVM_Executable 到 DVM 


在 程序 执行 前 ， 首 先 必须 要 为 DVM_VirtualMachine 绑 定 DVM_Execut- 
able， 用 方法 DVM adg executable() 来 完成 这 项 工作 。 由 于 一 个 DVM_ 
VirtualMachine 只 能 对 应 一 个 DVM_Executable， 因 此 这 个 函数 的 名 字 有 点 








挂 羊 头 卖 狗 肉 的 意思 。 


在 DVM adqd executable() 中 会 进行 以 下 几 个 处 理 


1. 将 函数 添加 到 DVM_VirtualMachine 中 
在 这 里 我 要 重申 一 下 ， 一 个 DVM VirtualMachine 只 对 应 一 个 DVM_ 

Executable。 但 是, 像 print () 这 样 的 原生 函数 储存 在 了 别 的 地 方 ( 即 DVM_ 

Executable 以 外 的 地 方 )， 因 此 有 必要 将 基数 以 某 种 方式 进行 链接 。 
DVM_VirtualMachine 结构 体 的 function 数组 正 是 为 此 而 存在 的 对 

















应 表 。 


其 类 型 Function 的 定义 如 下 所 示 。 


/* 将 Function 进行 分 类 的 标签 */ 
typedef enum { 

NATIVE FUNCTION, 

DIKSAM FUNCTION 
} FunctionKind; 


/* 保存 print () 之 类 的 原生 函数 */ 
typedef struct { 


DVM NativerunctionProc wproc,; 


meargneoune, 
} NativeFunction; 























/* 引用 在 Diksam 中 定义 的 函数 */ 
typedef struct { 





BuyMaeeemtablenn .eeembealle, 


J index;/* 上 





Function 的 下 标 */ 


} DiksamFunction; 


/* Function 结构 体 本 身 */ 
typedef struct { 


层 executable 内 ( 译 汝 








O 




















;与 本 函数 对 应 的 ) DVM_ 


: 图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


6.4 Diksam 虚拟 机 | 201 





char *name; 
FunctionKind kind; 
TEST 


Natave punet on meat one 
DiksamFunction diksam f; 
Do 
punmetealon 


DVM_Executable 中 保存 的 函数 在 执行 时 使 用 对 应 表 进 行 引 用 。 

这 个 引用 表 中 同样 登记 着 像 print () 这 样 的 原生 函数 ， 因 此 利用 这 个 对 应 
表 的 索引 ， 不 论 是 Diksam 中 定义 的 函数 还 是 原生 函数 ， 全 部 可 以 引用 到 。 

在 字 节 码 中 调用 函数 的 时 候 ， 使 用 push_function 指令 将 函数 对 应 
的 索引 值 入 栈 ， 这 个 被 舰 入 的 值 ， 就 是 在 编译 时 DVM_Executable 内 DVM_ 
Function 数组 的 下 标 。 

DVM_Function 数 组 中 不 包含 当前 源 代码 中 使 用 的 原生 区 数 ， 
此 Function 数组 和 索引 值 就 会 出 现 差 异 。 下 一 步 就 是 要 修正 这 个 问题 。 


2. 替换 函数 的 索引 

如 前 面 所 述 ， 在 编译 阶段 函数 的 索引 对 于 当前 DVM_Executable 来 说 是 局 
部 的 ， 在 执行 时 会 被 汇总 到 一 个 数组 中 ， 因 此 必须 要 将 索引 进行 转换 。 

这 个 操作 会 直接 替换 字 节 码 中 的 操作 数 。 

但 是 ， 如 果 直 接 调 整 成 与 某 个 DVM_VirtualMachine 匹配 的 字 节 码 的 话 ， 
当 一 个 DVM_Executable 对 应 多 个 DVM VirtualMachine 时 就 会 出 现 问题 。 
这 个 问题 将 在 9.3.4 节 中 修正 。 


3. 修正 局 部 变量 的 索引 值 

在 进行 上 述 操作 的 同时 ， 也 会 修正 局 部 变量 的 索引 值 。 

如 图 6-5 所 示 ， 引 用 局 部 变量 时 ， 索 引 与 参数 之 间隔 着 返回 信息 。 但 是 ， 纺 
译 器 并 不 知道 返回 信息 的 大 小 〈 其 实 是 可 以 知道 的 ， 但 是 为 了 信息 保密 而 使 编译 
器 不 能 获取 到 返回 信息 的 大 小 )， 因 此 在 编译 时 ， 参 数 的 索引 会 接着 引用 后 面 的 
索引 值 。 

DVM adqd executable() 中 会 使 用 push _ stack xxx 和 pop _ stack 
xxx 指令 对 此 进行 修正 。 































































































4. 将 全 局 变量 添加 到 DVM_VirtualMachine 中 
只 是 用 DVM Executable 结构 体 的 global variable 数组 的 个 数 创 
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代码 清单 6-2 
execute() 


So 





建 DVM VirtualMachine 结构 体 的 static v.variable 数组 ， 并 初始 化 数 





组 的 值 。 


6.4.2 执行 一 一 巨大 的 switch case 


接 下 来 就 要 开始 执行 了 。 

















DVM 是 一 个 将 编译 需 生 成 的 字 节 码 逐 个 执行 的 虚拟 机 。 也 就 是 说 ， 只 


环 地 执行 一 个 与 字 节 码 的 指令 种 类 一 样 多 的 巨大 switch case 就 可 以 了 。 
关于 这 个 话题 ， 可 能 直接 看 代码 会 更 形象 (代码 清单 6-2 )。 




















口 


要 


舍 





static DVM Value 
execute (DVM VirtualMachine *dvm, Function *func, 
DVM Byte *code, int code size) 


int BE; 

int base; 
DVM Value ret; 
DVM Value *stack; 


DVM Executable *exe; 


stack = dvm->stack.stack; 
exe = dvm->executable; 


for (pc = dvm->pc; pc < code size; ) { 

switch (code[pc]) { 

case DVM PUSH INT 1BYTE: 
STI_WRITE(dvm, 0, code[lpc+1]); 
dvm->stack.stack pointer++; 
PC += 2; 
break; 

case DVM PUSH INT 2BYTE: 
STI_WRITE (dvm, 入 > GET 2BYTE INT(&code [pc+1] ) ) ; 
dvm->stack.stack pointer++; 
Be a 33 
break; 

case DVM PUSH _INT: 
STI_WRITE (dvm, @, 


dvm->stack.stack pointer+t+; 
PC += 3; 
break; 
case DVM PUSH DOUBLE 0: 
STD WRITE(dvm, 0, 0.0); 
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dvm->stack.stack pointer++; 
PC++:， 
break; 

case DVM PUSH DOUBLE 1: 
STD WRITE (dvm, 0; 1.0):; 
dvm->stack.stack pointer++; 
pe+t+; 
break; 

case DVM PUSH DOUBLE: 
STD WRITE (dvm, 0， 

exe->constant pool| [GET 2BYTE INT(&code[pc+1])] .u.c double); 

dvm->stack.stack pointer++; 
PC += 3; 
break; 

case DVM PUSH STRING: 
STO_WRITE (dvm, 0, 


dvm literal to dvm string i(dvm 





exe->constant pool 
[GET 2BYTE INT (&code [pc+1])] 
UG Ering)).; 
dvm->stack.stack pointer++; 
PC += 3; 
break; 
( 之 后 省 略 ) 











现在 这 个 函数 rae 的 execute () 函数 ) 就 已 经 有 400 多 行 了 ， 并 且 
还 会 不 断 增 加 。 如 果 有 “一 个 函数 必须 少 于 XX 行 ”等 这 样机 械 的 编码 规约 的 话 ， 
i 违反 这 个 规则 。 

但 我 觉得 把 一 个 函数 分 割 开 并 没有 让 它 变 得 更 易 读 。 即 使 是 规定 了 “一 个 
函数 必须 少 于 XX 行 ”这 样机 械 的 编码 规约 ， 也 不 能 说 编程 本 身 是 一 项 机 械 的 
工作 。 

更 重要 的 是 ， 由 于 这 个 函数 的 内 部 引用 了 栈 ， 因 此 用 到 了 以 下 这 些 宏 。 


















































® STI(dvm, sp), STD(dvm, sp), STO(dvm, sp) 
以 当前 栈 指针 加 上 sp 为 索引 值 ， 返 回 栈 上 对 应 元 素 值 。 主 要 用 于 四 则 运算 等 ， 
也 用 于 双 目 / 单 目 运算 符 操作 栈 项 附近 的 值 。 
STI 用 于 int,STD 用 于 double,STOo 用 于 string( 对 象 )。 下 述 三 个 方法 同 理 


-Eo 




































































® STI I(dvm, sp), STD I(dvm, sp), STO I(dvm, sp) 
直接 以 sp 为 索引 值 ， 取 得 栈 上 对 应 元 素 值 。 使 用 了 push_stack xxx、pop_ 
stack xxx 系列 的 指令 。 


这 些 指令 不 是 用 来 引用 栈 项 附近 的 值 的 ， 而 是 用 来 引用 以 base 为 起 点 的 索引 值 
























































酒 
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对 应 的 栈 元 素 的 。 








@ STI WRITE(dvm, sp, r), SID WRITE(dvm, sp, r), STO WRITE (dvm, sp, I) 
用 与 STI () 等 相同 的 方法 来 指定 栈 上 的 元 素 ， 并 在 对 应 元 素 的 位 置 写 入 r。 因 为 
更 用 了 STI () 等 宏 命令 ， 所 以 可 以 用 STI (dvm，0) == xxx 的 形式 进行 赋值 。 
但 是 ， 必须 要 根据 类 型 是 否 为 指针 来 设 定 栈 的 pointer_flag， 因 此 特意 制 
来 写 入 的 宏 。 




































































































































































一 人 
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ed 




















® STI WRITE I(dvm, sp, r), STD WRITE I(dvm, sp, r), STO_ 
WRITE I(dvm, sp, Ir) 


接 以 sp 为 索引 值 的 STx_WRITE () 。 


6.4.3 函数 调用 


作为 程序 的 起 始点 ，execute () 函数 确实 是 一 个 巨大 的 函数 ， 逐 个 地 执行 
每 个 指令 绝对 不 是 几 行 代码 就 能 解决 的 。 
这 里 将 要 说 明 的 是 一 个 稍微 复杂 一 些 的 话题 一 一 函数 调用 。 
函数 调用 按照 以 下 的 顺序 执行 。 
1. 将 参数 以 从 前 向 后 的 顺序 入 栈 。 
2. 使 用 push_function 将 函数 的 索引 值 入 栈 。 
上 述 操作 执行 后 ， 栈 的 状态 如 图 6-7 所 示 。 
然后 执行 invoke 指令 。 








































































































3. 执行 invoke， 调 用 栈 顶 的 函数 。 



































如 果 被 调用 的 函数 是 一 个 原生 函数 ， 那 么 上 述 操作 就 会 实际 地 执行 这 个 原生 
Diksam 原生 函数 的 调用 形式 如 下 ( 以 print () 为 例 )。 


static DVM Value 
nvalprint proce (Dv Vi Eual Machime :dv 


mntNargeount DVMIValue *args) 








{ 
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图 6-7 ] 
函数 调用 ( 1 ) 函数 调用 
> 者 运算 时 
使 用 的 栈 

| a 

一 ] 





有 


这 里 把 DVM_Value 的 数组 作为 参数 传递 给 了 nv_print_proc 函数 ， 但 其 
实 ， 参 数 在 栈 上 正好 是 按 顺序 排列 的 ， 因 此 这 里 也 可 以 只 传 第 一 个 参数 的 指针 
如 果 要 调用 Diksam 的 函数 ， 要 进行 以 下 操作 。 
4. 将 返回 信息 入 栈 。 
5. 设置 base 的 值 。 
6. 初始 化 局 部 变量 。 
7. 规 换 执行 中 的 executable 和 函数 。 
8. 将 程序 计数 器 置 为 0 并 开始 执行 。 







































































使 用 callInfo 结构 体 来 表示 之 前 一 直 在 说 的 返回 信息 的 实体 。 


typedef struct { 


Rume tuom *caller; 
bi als Gelaegseedness 
IE base; 

) Ce 





caller 指向 当前 函数 的 调用 者 (也 是 函数 )，caller_address 指向 函数 
内 字 节 码 上 的 地 址 。base 指向 调用 者 的 base 值 (引用 参数 或 者 局 部 变量 的 
起 点 )。 

在 函数 被 调用 的 时 候 ， 因 为 栈 中 还 保存 着 很 多 运算 过 程 中 的 值 ， 所 以 如 
果 CallInfo 中 不 保存 base 的 话 ， 函 数 结束 后 就 无 法 返回 了 《〈 因为 不 知道 返回 
到 哪里 )。 

对 于 CallInfo 结构 体 来 说 ， 首 先 要 被 覆盖 设置 调用 函数 的 索引 (由 push_ 
function 入 栈 的 )。 之 后 设置 新 base， 创 建 局 部 变量 的 内 存 区 域 。 在 被 调用 的 函数 
开始 执行 时 ， 栈 的 状态 如 图 6-8 所 示 。 
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6-8 函数 调用 
函数 调用 ( 2 ) 者 运算 时 
的 栈 





















































调用 的 函数 
在 之 后 运算 中 
的 栈 






































被 调用 的 函数 在 达到 这 个 状态 后 就 可 以 开始 执行 了 。 

反 过 来 ， 从 函数 中 return 的 时 候 是 怎样 操作 的 呢 ? 函数 在 最 后 结束 之 前 要 
先 执行 zetuzrn， 因 此 函数 在 结束 时 必须 在 局 部 变量 的 下 一 个 位 置 中 保存 返回 值 
(如 图 6-9 )。 

将 参数 、cal1Info、 局 部 变量 全 部 移 除 后 ， 将 返回 值 移动 到 栈 顶 。 这 样 做 ， 
即使 函数 是 在 表达 式 的 计算 过 程 中 被 调用 的 ， 也 可 以 让 它 正确 地 使 用 函数 的 返回 
值 (如 图 6-10 )。 











































































































































































6-9 6-10 函数 调 
函数 调用 ( 3 ) 函数 调用 ( 4) 者 运算 时 
使 用 的 栈 
返回 值 
| 
有 增长 方向 
返回 值 
| 
增长 方向 


erp 
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Diksam 中 数组 的 设计 


由 于 Diksam book_ver.0.1 不 能 使 用 数组 ， 因 此 让 人 感觉 不 太 实 用 ， 所 以 在 
book_ver.0.2 中 我 们 将 引入 数组 的 概念 。 啊 ， 这 个 开场 白 好 像 和 4.1 市 的 一 样 呢 。 


[| 声明 数组 类 型 的 变量 


Diksam 中 数组 的 设计 与 Java 大 致 相同 。 
首先 ， 在 Diksam 中 变量 必须 要 进行 声明 ， 当 然 数 组 类 型 的 变量 也 不 例外 ， 
需要 用 Java 的 风格 进行 声明 。 
int [] a;// 声明 int 类 型 的 数组 
创建 数组 时 的 语法 也 和 Java 一 样 。 
// 创建 了 一 个 可 以 访问 到 a[2] [4] 的 数组 
a new nelensr 
与 crowbar 和 Java 一 样 ，Diksam 的 数组 也 是 引用 类 型 。 因 此 ， 下 面 的 代码 会 
偷 出 a [1] . .10。 
































ma a 
ned 


Bp 
a;// a 和 pb 指向 同一 个 数组 











// 因此 ， 改 变 b[1] 的 话 a [1] 也 会 跟着 改变 
I =O 
Ble a a 


因为 数组 a 和 数组 b 指向 了 同一 个 数组 ， 所 以 输出 这 样 的 结果 也 是 理所当然 
的 (如 图 7-1)。 


两 个 变量 同时 引用 一 个 
Diksam 的 数组 b 


男 外 ,( 看 上 去 是 ) 多 维 数组 实际 上 是 数组 的 数组 。 
总 之 , 在 a = new int [3] [5]; 这 段 代码 中 ，a 最 后 得 到 的 是 “int 数组 
(3 个 元 素 ) 的 数组 (5 个 元 素 》。 关 于 数组 元 素 的 引用 形式 ， 如 图 7-2 所 示 。 
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int 数组 ( 3 个 元 素 ) 


本 的 数组 ( 5 个 元 素 ) [| | 


区 可 数组 字面 量 

在 Java 中 ， 数 组 类 型 变量 只 有 在 声明 的 同时 进行 初始 化 ， 才 可 以 用 如 下 
方式 。 

ae I er ea 2 ee 

其 他 情况 下 ， 数 组 字面 量 必须 使 用 以 下 方式 声明 。 


a new el 2 



































虽然 知道 在 Java (或 Diksam ) 这 样 的 静态 类 型 语言 中 必须 明确 地 指定 类 型 ， 
但 是 总 觉得 new int [] 这 部 分 太 宛 长 了 ， 另 外 对 于 初学 者 来 说 ， 初 始 化 和 其 他 
情况 不 同 也 容易 造成 混乱 。 更 重要 的 是 我 ( 从 语言 实现 者 的 角度 出 发 ) 不 支持 一 
种 常量 有 两 种 声明 方式 。 
因此 在 Diksam 中 ， 数 组 字面 量 的 类 型 由 “最 初 的 元 素 的 类 型 ”决定 (这 里 
模仿 的 是 DD 语言 )。 
总 之 ， 下 面 这 段 代 码 中 第 2 个 和 第 3 个 元 素 会 被 转换 成 double， 
以 aouble 型 数组 {1.0，2.0，3.0} 的 形式 赋值 给 a。 
deublel 0 2 
第 2 和 第 3 个 元 素 会 被 转换 为 double， 被 赋值 给 a 的 是 一 个 由 {1.0， 
2.0，3.0} 组 成 的 double 数组 。 
在 Diksam 中 (与 Java 相同 )， 还 没有 决定 元 素 值 的 数组 ， 写 作 a = new 
int [5] [3] ; ,这 段 代码 创建 了 一 个 访问 范围 是 从 a[0] [0] 到 a[4] [2] 的 数组 。 
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补充 知识 DD 语言 的 数组 
D 语言 是 Digital Mars 公司 作为 C 语言 的 后 继 开发 出 来 的 编程 语言 。 
在 D 语言 中 , 如 果 想 要 创建 一 个 访问 范围 从 a[0] [0] 到 a[4] [2] 的 数组 , 就 要 写 
成 int [3] [5] ;。 而 且 ， 并 不 是 堆 中 而 是 作为 静态 或 者 局 部 变量 时 数组 的 声明 语法 。 如 
果 要 使 用 new 进行 动态 分 配 时 就 要 写成 new int[3] [5] 了 。 
与 C 和 Java 一 样 ，D 语言 的 数组 下 标 也 是 从 0 开始 ， 下 标的 上 限 和 数组 的 大 小 相 
差 1。 这 点 虽然 很 好 ， 但 是 可 以 访问 到 a[4] [2] 的 数组 声明 方式 却 是 int [3] [5] ; ， 
肯定 有 人 会 怀疑 是 不 是 把 顺序 搞 错 了 。 确 实 ， 在 C 语言 中 可 以 访问 到 a[4] [2] 的 数组 
声明 方式 是 int [5] [3] ; ，Java 在 new 数组 的 时 候 也 是 int [5] [3] ;。 
但 是 ， 在 Java ( 或 者 是 Diksam ) 中 ，new int [5] [3] ; 得 到 的 是 int 的 数组 ( 3 
人 站 ( 5 个 元 素 )。Java ( 或 者 是 Diksam ) 的 语法 不 可 以 从 左边 开始 读 ， 这 




































































































































































































































































虽然 是 这 样 ， 但 是 Java 语言 比 D 语言 使 用 范围 更 广泛 ， 这 部 分 的 语法 C# 和 Java 
也 是 相同 的 ， 更 重要 的 是 ， 已 经 习惯 了 这 样 ( Java ) 的 写法 突然 改变 的 话 ， 会 变 得 混乱 














































































































( 我 自己 也 会 )， 因 此 在 数组 声明 方式 上 ，Diksam 是 迎合 了 Java 的 做 法 。 
虽然 如 此 ，D 语言 是 美国 人 开发 出 来 的 语言 ， 在 他 们 看 来 D 语言 这 样 的 顺序 可 能 
更 自然 一 点 。 














区 下 数组 的 语法 规则 


这 次 增加 的 语法 规则 如 下 所 示 。 


1. 扩展 类 型 标识 符 ( type_specifier ) 以 声明 数组 类 型 的 变量 
2. 使 用 new 创 建 数组 的 语法 ( array_creation ) 

3. 数组 字面 量 (array literal ) 
4. 使 用 下 标 运 算 符 ( 如 a [10] ) 引用 数组 元 素 的 语法 


第 1 点 ,原来 的 类 型 标识 符 是 下 面 这 样 的 。 
CycenSpee ne 


: BOOLEAN 了 
| 
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开始 的 ， 所 以 这 里 








因为 数组 的 下 标 是 从 0 











般 的 计数 方法 取得 的 


该 是 第 6 个 元 素 。 


应 
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| DOUBLE T 
| SLTRENGETD 

















现在 ， 像 boolean 或 者 int 这 样 的 基本 类 型 都 将 被 作为 basic_type_ 
specifier， 如 下 所 示 。 


[SH 
8 oasesle evo Coal le 
| type specifier LB RB 


LB 和 RB 是 Left Bracket 和 Right Bracket 的 简称 ,代表 [和] 。 

type_specifier 可 以 包含 [] 本 身 。 这 样 一 来 不 论 加 几 个 [] 都 可 以 〈 例 
如 intr [][] )。 

第 2 点, 使 用 nevw 创建 数组 的 语法 看 上 去 好 像 挺 麻烦 的 。 

比如 在 Java 中 代码 new int [10] 会 得 到 int 数组 ( 10 个 元 素 )。 

在 此 基础 上 如 果 加 上 下 标 [5] ， 就 变 成 了 new int [10] [5] 。 这 行 代 码 会 
取得 new int [10] 的 第 5 个 元 素 * 是 不 可 能 的 ， 这 当然 是 创建 二 维 数组 的 意思 。 

总 之 ， 下 标 运算 符 [] 除了 必须 要 适用 于 普通 的 表达 式 之 外 ， 还 要 适用 基 
于 nevw 的 数组 创建 (array_creation ) 语法 。 

在 Diksam book_ver.0.1 中 组 成 表达 式 的 最 小 元 素 是 primary_expression( 运 
算 符 优 先 顺序 最 高 的 块 )， 因 此 “基于 new 创建 数组 ”被 当 作 “例外 情况 ”来 
处 理 。 
































primary expression 
: primary_no_new_array /* 基于 new 创建 数组 之 外 的 表达 式 */ 
| array_creation /* 使 用 new 创建 数组 的 表达 式 */ 


























引用 数组 元 素 的 语法 规则 如 下 所 示 。 下 标 运算 符 [] 不 被 局 限于 使 用 new 来 
创建 数组 。 


primary no new array 
/* 可 以 使 用 [] 的 只 有 primary no new array */ 


























: primary no new array LB expression RB 


( 之 后 省 略 
es 这 是 一 段 多 么 了 不 起 的 代码 啊 。 可 这 不 是 我 写 的 ， 我 只 不 过 是 照搬 了 
Java 的 语法 规则 而 已 。 
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区 2 TypeSpecifier 结构 体 


在 Diksam 的 编译 器 中 ,使 用 TypeSpecifier 结构 体 保存 数据 类 型 。 

关于 TypeSpecifier 结构 体 请 参考 6.3.4 节 。 

要 点 在 于 ， 要 使 用 保存 基础 类 型 (DVM BasicType) 的 TypeSpecifier 
结构 体 和 链表 连接 起 来 的 派生 类 型 ( TypeDerive ) 来 表示 所 有 数据 类 型 。 

这 部 分 的 代码 如 代码 清单 7-1 所 示 。 


代码 清单 7-1 typedef enum { 
TypeSpecifier ( Diksam EUNCTION DERIVE 
book_ver.0.2 版 ) ARRAY DERIVE 


} DeriveTag; 
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typedef struct { 
ParameterList *parameter list; 


} FunctionDerive; 


typedef struct { 
int dummy; /* make compiler happy */ 
} ArrayDerive; 


typedef struct TypeDerive tag { 
DeriveTag tag; 
union { 
FunctionDerive function qd; 
ArrayDerive array_d; 
} ui 
Stewet TypeDerive tag *next; 


} TypeDerive; 


struct TypeSpecifier tag { 
DVM BasicType basic type; 
TypeDerive *derive; 


}; 

之 前 的 派生 类 型 只 有 “区 数 类 型 "*， 这 次 增加 了 数组 的 派生 (在 TypeDerive 
的 tag 中 加 入 了 ARRAY_DERIVE )。 

在 fix tree.c 中 ， 表 达 式 的 各 个 节点 中 也 要 附加 对 应 地 TypeSpecifier 结 
构 体 。 比 如 ,使 用 int [] [] a; 声明 变量 a， 在 附加 TypeSpecifiez 的 时 候 ， 
首先 给 basic_type 赋值 为 DVM_INT_TYPE， 在 此 基础 上 给 进行 了 数组 派生 
的 TypeDerive 累加 上 两 个 链表 。 
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于 是 , 使 用 下 标 运 算 符 进行 引用 (如 a[10] ) 的 时 候 , 移 除 TypeDerive 链 
表 的 第 一 个 元 素 后 剩 下 的 就 是 表达 式 的 类 型 了 。 同 理 ， 如 果 是 a[10] [3] 的 话 ， 
把 两 个 都 移 除 后 ， 表 达 式 的 类 型 就 是 int 了 (如 图 7-3 )。 











含有 数组 的 分 析 树 的 
类 型 








1 、 7 
TypeSpecifier TypeDerive 


在 图 7-3 中 ， 圆 形 中 间 带 有 [] 的 符号 表示 下 标 运 算 符 IndexExpression。 
它 是 Expression 结构 体 中 的 一 种 联合 体 ， 数 组 和 下 标的 表达 式 保存 在 下 面 的 
结构 体 中 。 


typedef struct { 
Expression *array; /* 数组 的 表达 式 */ 
Expression *index; /* 下 标的 表达 式 */ 
} IndexExpression; 


| 修改 DVM 








增加 指令 
由 于 这 次 引入 了 数组 ， 因 此 在 DVM 中 也 要 增加 相应 的 指令 ， 增 加 的 指令 如 
请 参考 附录 C 中 的 范例 表 7-1* 所 示 。 
阅读 本 表 。 
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表 71 入 操作 数 类 型 “| 含义 村 
随 着 引入 数组 增加 的 “一 
中 令 根据 栈 项 的 数组 和 下 标 ， 取 
" array int]=> 
push array_ int 得 数组 的 元 素 ( int 型 ) 
将 其 入 栈 0 
根据 栈 项 的 数组 和 下 标 ， 取 , 
push array dou- a 2 array int]=> 
本 得 数组 的 元 素 ( double 型 ) 
ble 将 其 入 楼 doublel] 
根据 栈 项 的 数组 和 下 标 ， 取 
push artray ob- a array int]=> 
一 得 数组 的 元 素 ( object 型 ) 
ject 将 其 入 栈 object] 
每 栈 顶 的 值 ( int1 ) 赋值 给 上 
in EE 生地 十 = 
pop_array_int 与 数组 ( array ) 下 标 int2 i 
对 应 的 元 素 4 
将 栈 顶 的 值 (double ) 赋 
pop_array_dou- 值 给 与 数组 (array ) 下 标 [double array 
ble Ee | 
int 对 应 的 元 素 
将 栈 项 的 值 ( object ) 赋值 
pop_array_ ob- 给 与 数组 (array ) 下 标 int [object array 
ject 2 Ee int] >[] 
对 应 的 元 素 
创建 以 操作 数 byte 指定 维 
byte、 数 ,以 short 指定 类 型 的 数组 ， [sizel size2 
new array 和 本 
short 在 栈 中 创建 指定 大 小 的 空间 并 ..]=>[array] 
将 数组 入 材 
使 用 已 经 入 栈 的 操作 数 作为 
new array_ 1it- a int 型 元 素 ( 操作 数 用 来 指 [ 生 而 蕊 下” 询 丰 2 二 租 巧 各 
shor ee i er 、 
eral_int 定 元 素 个 数 ) 创建 数组 并 将 ..]=>[array] 
数组 入 栈 
使 用 给 定数 量 的 已 经 入 栈 的 | [doublel dou- 
new array_1lit- 机 < 
short 操作 数 作 为 double 型 元 素 ble2 double3 
eral double 了 
一 创建 数组 并 将 其 入 栈 ..]>[array] 
, 更 用 给 定数 量 的 已 经 入 栈 的 [object1 ob- 
new array. Lit= 2 二 
short 操作 数 作为 object 型 元 素 | ject2 object3 
eral object a > 
创建 数组 并 将 其 入 栈 


yu 
































..]>[array] 


在 指令 中 出 现 了 “object 型 ”的 概念 。 它 是 在 之 前 只 包含 了 字符 串 的 引用 








类 型 的 基础 上 又 增加 了 数组 ， 是 由 字符 串 和 数组 组 成 的 类 型 。 
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随 着 上 述 改 变 ， 除 了 专门 处 理 字 符 串 的 操作 (如 字符 串 比 较 等 )， 之 前 
的 push static string 等 指令 都 要 重 命 名 为 push static object 等 了 。 

表 7-1 的 指令 中 ， 我 想必 须要 特别 说 明 一 下 new_array。 

在 表 7-1 中 提 到 了 “操作 数 short 代表 的 类 型 "， 这 个 操作 数 是 指 这 次 在 DVM_ 
Executable 中 新 增 的 DVM_TypeSpecifier ee (代码 清单 7-2 )。 


























struct DVM Executable tag { 
int constant pool count,; 
DVM_ ConstantPool *constant pool; 
int global variable count; 
DVM Variable *global variable; 
于 下 怎 function count ; 
DVM Function *function; 
int type_specifier count; 
DVM TypeSpecifier *type specifier; 
1 code size; 
DVM Byte *cCode; 
int line number size; 
DVM LineNumber *]line number; 
int need stack size; 
}; 











DVM_TypeSpecifier 结构 体 在 book ver0.1 时 就 已 经 存在 了 ， 它 和 
TypeSpecifier 结构 体 保存 着 同样 的 信息 。 
例如 ， 使 用 new int [5] [3] 创建 一 个 数组 ，new_array 的 操作 数 将 被 指 
定 为 保存 着 int [] [] 类 型 信息 的 DVM_TypeSpecifier 的 下 标 。 
这 样 一 来 ， 只 要 知道 对 应 的 TypeSpecifier 就 能 够 知道 数组 的 维 数 ，int [] 
[] 型 的 数组 也 可 以 像 new int[5] [] 这 样 ， 在 代码 运行 过 程 中 再 创建 另外 一 
维 。 实 际 创建 的 维 数 (这 里 是 1 ) 使 用 另外 一 个 byte 型 操作 数 传递 指令 。 另 外 ， 
使 用 代码 a = new int[5] [] ;创建 的 数组 和 Java 一 样 ，a[0] ~a[4] 被 初始 
化 为 null。 
补充 知识 。 创建 Java 的 数组 字面 量 
如 表 7-1 所 示 ， 在 DVM 中 ,new array literal int 等 创建 常量 的 指令 ， 会 
先 将 组 成 数组 的 值 入 栈 ， 再 利用 已 经 在 栈 上 的 值 创 建 数组 。 但 是 ，JVM 就 没有 与 此 对 
应 的 指令 。 那 么 ，Java 中 是 如 何 通过 构造 函数 创建 的 数组 或 者 使 用 new :int (1,2， 
3} 这 样 的 代码 创建 数组 的 呢 ? 让 我 们 使 用 javap 来 看 一 下 。 
最 初 的 代码 : 
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yen 





class Test { 


} 


public static void main(String[] args){ 
rt 


} 


javap 的 结果 ( 只 截取 了 指令 部 分 ) : 


0 
1 
3 
4 
Ss 
Gs 
8 
S| 
下 和， 
二 下 
下 又 
1 
14: 
Ss 
i 
Ts 
Ls 
ss 
205 
2 
2 


2 
24: 


也 就 是 说 ， 相 当 于 下 面 这 段 代 码 。 


sererals 


dup 
Teonse0 
Teenie 
iastore 
dup 
eoOnsel 
SEE 
iastore 
dup 
GCSE 
IGOnstS 
iastore 
dup 
TEOSCES 
iconst 4 
iastore 
dup 
iconst 4 
TCOns es 
Wal lone 
SEOGNE 汪 下 
OEY 


: newarray int 

















le 


a[0 
al[ll 
al[2 


ll 
ODPp 





在 我 对 来 ， 





成 字 节 码 














大 小 限 








引起 问题 。 


出 的 ( Diksam 也 一 权 


Wa new asl 

















fF )， 所 以 





习 动 生成 代码 的 时 候 ( 也 光 




















的 体积 太 大 了 。 在 Java 中 ， 与 一 个 方法 对 





应 的 字 节 码 是 























不 有 














他 情况 ) 可 能 会 
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补充 知识 ”C 语言 中 数组 的 初始 化 


Diksam 也 好 ，Java 也 好 ， 数 组 字面 量 以 及 利用 构造 函数 创建 的 数组 ， 它 们 的 内 容 
都 是 在 “运行 时 ”决定 的 。 所 以 ， 在 下 面 这 段 代码 中 : 

































































tall a Ms > 0, fone(l) ls 


从 这 段 初始 化 的 程序 可 以 看 出 ， 数 组 元 素 可 能 只 在 运行 时 才能 决定 其 值 的 表达 式 。 
对 此 ， 在 C 中 利用 初始 化 程序 初始 化 数组 的 时 候 ， 元 素 的 内 容 必须 是 常量 
寻 为 有 了 这 个 限制 ， 在 编译 时 可 以 预先 创建 数组 的 内 存 映 像 ，static 变量 开始 执 
行 、 自 动 变量 ”进入 函数 时 ， 可 以 利用 事先 创建 的 内 存 映像 进行 初始 化 。 
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对 象 





在 book_ver.0.1 中 可 以 称 为 对 象 的 上 
了 数组 成 员 ， 以 对 应 这 次 新 增 的 数组 概 : 


struct DVM Object _ tag { 
Ob cen ee 
unsigned int marked:1; 


有 字符 串 ， 现 在 在 DVM_object 中 增加 


VD 


二 


> 


J 


EG 


union { 

DMS eae ae 

DVM Array arrayy 
} ui 
Slrmueteeov Mob tea er 
Seeueteov obec taag meme 


}; 
DVM_Array 的 内 容 如 下 所 示 。 


typedef enum { 
NT 二 和 ARRAY 和 三 党 号 
DOUBLE ARRAY, 
OBJECT ARRAY, 
} ArrayType; 


struct DVM Array tag { 
ArrayType 上 WPDe 


sn. size; 
ba eileoesnzey 
unionel 


























QD 一 般 情况 下 可 以 看 作 是 局 部 变量 。 译 者 注 
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int ES 
double elomelenanay 
BVMEOGBIECE OBE 


) wy 
上 


在 crowbar 中 ， 数 组 是 “CRB_Value 的 数组 ””。 这 次 也 一 样 ， 因 为 有 DVM_ 
Value 联合 体 ， 数 组 也 可 以 表现 为 数组 。 但 是 ， 由 于 Diksam 是 静态 语言 ， 因 此 
数组 的 类 型 是 静态 决定 的 。 绝 对 不 可 能 把 double 加 入 到 int 的 数组 中 。 

这 么 说 的 话 ，int 的 数组 使 用 “sizeof (int) x 元 素数 ”就 可 以 毫 无 浪费 
地 创建 内 存 空间 ， 即 使 是 传递 给 C 的 内 置 例 程 处 理 起 来 也 很 舒适 。 因 此 ， 枚 举 类 
型 ArrayType 中 的 每 个 对 象 都 表示 不 同 数组 元 素 的 类 型 。ArrayType 没有 必 
要 对 应 Diksam 中 的 所 有 类 型 。 例 如 字符 串 的 数组 ,或 者 是 数组 的 数组 ， 这 些 都 
是 OBJECT_ARRAY。 数 组 的 类 型 在 编译 时 决定 ， 因 此 运行 时 在 这 里 没有 必要 保存 
严格 的 类 型 。 现 在 的 情况 是 ， 数 组 的 类 型 信息 只 有 GC 用 到 了 。 


补充 知识 。 ArrayStoreException 


前 面 写 到 ， 在 Diksam 中 既 有 字符 串 数 组 也 有 数组 的 数组 ， 数 组 的 对 象 中 只 保存 了 
“OBJECT_ARRAY” 这 一 个 信息 。 与 此 相对 ， 在 Java 中 ， 数 组 对 象 中 保存 着 完整 的 类 型 
信息 。 这 样 的 区 别 是 基于 以 下 两 点 原因 。 

eDiksam 中 还 不 存在 类 和 继承 ， 但 是 在 Java 中 存在 。 

e 在 Java 中 ， 当 A 是 B 的 子 类 时 ，A[] 也 自动 地 成 为 了 B [] 的 子 类 。 

例如 个 表示 图 形 的 类 shape， 有 两 个 继承 它 的 子 类 Line 和 circle。 这 时 在 
Java 中 ， 可 以 把 Line 的 数组 赋值 给 shape [] 型 的 变量 。 这 种 设计 乍 看 是 挺 方便 的 ， 
实际 上 问题 重重 。 请 思考 如 下 这 个 代码 片段 。 































































































































































































Line[] lines = new Line [10] :; 


shapes [3] = new Circle(); 





诗 
2 Snapelehnapes = aesy 
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第 1 行当 然 是 合法 的 。 第 2 行 也 一 样 ，Line [] 是 Shape [] 的 子 类 ， 因 此 在 Java 
中 也 是 合法 的 。 第 3 行 ， 因 为 Circle 也 是 Shape 的 子 类 ， 所 以 Java 在 编译 时 并 不 会 报 
错 ( 更 确切 地 说 是 报 不 出 错 )。 

接 下 来 的 第 4 行 就 悲剧 了 。shapes 和 1lines 指向 同一 个 数组 ,因此 lines [3] 也 
就 是 shapes [3] ， 它 在 第 3 行 被 赋 了 一 个 Circle 对 象 的 值 。 但 是 ， 在 第 4 行 的 时 
候 又 要 引用 Dine 的 起 点 ( startPoint )，Circle 中 并 没有 startPoint， 因 此 






































































































































中 这 个 数组 值 必须 是 双向 链表 。 一 一 译 者 注 
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这 行 代码 不 能 被 执行 。 但 是 ， 编 译 器 却 始终 认为 1ine [3] 肯定 是 Line， 因 此 编译 时 
会 出 现 报错 。 正 医 各 此 ， 在 Java 中 ， 执 行 到 第 3 行 代码 时 会 发 生 运行 时 的 异常 ， 
ArrayStoreException。 

只 有 在 运行 时 掌握 “这 个 数组 在 变量 声明 上 是 Shape[] ， 但 是 它 实 际 上 却 
是 Line []"， 才 能 在 实现 时 抛 出 上 述 异 常 。 因 此 ， 在 Java 中 ， 必 须 将 完整 的 类 型 信息 
保存 在 数组 的 对 象 中 。 

我 认为 这 是 一 个 不 良 的 设计 。 既 然 是 静态 语言 ， 就 应 该 在 编译 时 完成 类 型 检查 ， 在 
运行 时 抛 出 异常 不 是 很 奇怪 的 吗 ? 总 之 , 我 认为 Java 的 “A 是 B 的 子 类 时 , A[] 也 自动 
地 成 为 了 B[] 的 子 类 ”这 个 规则 是 错误 的 。 

Diksam 将 在 下 一 章 引 入 类 的 概念 ， 但 是 没有 建立 上 述 规则 ， 因 此 也 没有 必要 在 数 
组 中 保存 严格 的 类 型 信息 。 

[3 增加 null 
由 于 数组 和 字符 串 都 是 引用 类 型 ， 因 此 增加 了 nul1。 

















随 之 改变 的 是 ， 以 前 字 邓 


符 串 变量 的 初始 值 是 空 


关于 nul1 的 规则 如 下 所 示 。 


字符 串 ， 现 在 变 成 了 null。 








Es CO 


符 串 类 型 、 


数组 类 型 的 变量 


可 以 赋值 为 nu11。 





串 类 型 与 值 为 nul1 的 变量 





























日 类 型 上 


中 大寺 














9 
呈 
串 类 型 


与 字面 量 nul1 用 + 连 
I 与 数组 类 型 可 以 和 





用 + 连接 的 话 ，nul1 会 转换 为 字符 


cp AAA 器 





中 
中 








nul1 进 行 比 较 。 


接 的 话 ，nul1 会 转换 为 





子 付 品 


Bnul 


null', 
1"。 








缺点 什么 吧 ? 


7.3.4 改 , 还 


些 功能 。 
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这 次 引入 了 数组 的 概念 ， 如 果 是 了 解 当 今 编程 语言 的 人 肯定 在 期 待 着 下 面 这 


既然 引入 了 数组 的 
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/又 











@ 没有 动态 增加 数组 元 素 





多 念 今 a 
心心» 


例如 array .add( 





不 能 把 数组 内 容 直 接 输出 
这 些 大 概 在 当今 的 编程 语言 中 都 能 实现 ( 有些 语言 
为 地 址 或 者 哈 希 值 )， 说 起 来 在 crowbar 上 
是 因为 考虑 到 这 





所 以 ， 下 一 章 将 要 对 类 进 


文 些 功能 最 终 都 归结 为 “方法 ”， 


么 能 没有 它们 呢 ? 
知道 数组 大 小 的 ( array .size( 





A 








井 行 处 理 。 

















) 或 者 array.length 等 ) 方 
) ) 的 方法 吗 ? 
(例如 print ("array.. 


ray) 


起 





方法 吗 ? 


) 吗 ? 








剖 作 更 为 恰当 。 





会 把 数组 理所当然 地 输出 
FP 也 实现 了 ,但 是 这 次 却 搁置 起 来 了 。 这 


因此 还 是 和 类 一 
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2 攻 E 有 分 齐 源 文件 


本 章 的 标题 是 “将 类 引入 Diksam”， 在 现在 的 Diksam 中 源 代 码 不 能 分 散 地 
写 在 多 个 文件 中 。 即 使 在 编程 语言 中 引入 了 类 的 概念 ， 如 果 必 须 把 所 有 代码 都 写 
在 一 个 源 文 件 中 ， 那 么 这 个 语言 又 能 有 和 多 大 用 处 呢 ? 

因此 ， 首 先 要 实现 对 源 文件 的 分 割 。 


8.1.1 | 包 和 分 割 源 代 码 


分 割 源 代 码 的 方法 ， 最 简单 的 就 是 和 C 语言 里 面 的 #incluge 一 样 ， 能 入 
来 自 于 其 他 源 文件 的 代码 。 这 个 方法 既 简 单 又 直接 ， 非 常 实用 。 

但 是 ， 使 用 这 个 方法 人 能 入 多 个 库 文件 时 ， 函 数 名 、 变 量 名 等 很 可 能 发 生 冲 
突 。 因 此 ， 在 分 割 源 代码 的 同时 ， 加 入 相当 于 Java 的 包 或 者 C++ 和 C# 的 命名 空 
间 的 功能 。 

Diksam 的 包 的 设计 方式 如 下 所 示 。 






















































































1. require 

一 些 源 文 件 如 果 需 要 其 他 源 文件 提供 的 功能 时 ， 应 在 该 源 文件 的 开头 加 入 如 
下 代码 。 

require hoge; 

在 这 个 例子 中 ， 编 译 吉 会 在 编译 时 搜索 文件 名 为 hoge.dkh 的 文件 。 和 Java 
的 import 一 样 ，require 也 只 能 写 在 代码 的 开 涉 。 男 外 ，require 读 取 的 文 
件 必须 以 .dkh 为 后 级， 它 是 与 C 语言 的 头 文件 相似 的 文件 。 

搜索 源 文件 的 目录 配置 在 环境 变量 DKM_REQUIRE SEARCH PATH 中 ， 多 个 
搜索 目录 之 间 在 UNIX 中 用 冒号 、 在 Windows 中 用 分 号 分 割 。 如 果 没 有 配置 这 个 
环境 变量 的 话 ， 将 在 当前 目录 ( . ) 中 进行 搜索 。 这 里 的 设计 方式 基本 上 和 Java 
的 CLASSPATH 相同 。 

被 require 的 文件 有 可 能 还 要 require 其 他 文件 ， 这 时 不 会 对 同一 个 文件 
进行 重复 读 取 。 
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2. 动态 加 载 
对 于 require 的 文件 来 说 ,虽然 也 可 以 把 必要 的 函数 的 源 代码 全 都 写 在 里 
， 但 是 函数 只 要 像 下 面 这 样 进行 签名 声明 也 可 以 编译 通过 。 
jnt print (string str)y 

如 果 是 像 print () 这 样 的 原生 函数 ， 签 名 声明 后 就 可 以 直接 使 用 了 。 

如 果 不 是 原生 函数 的 话 ， 只 有 在 函数 被 调用 的 时 候 才 会 加 载 对 应 的 源 代 码 。 
这 种 方式 称 为 动态 加 载 ( dynamic load )。 因 为 程序 中 总 有 些 功 能 是 不 常用 的 ， 使 
用 了 动态 加 载 后 相信 和 能够 实现 高 速 化 启动 。 

如 果 在 hoge.dkh 中 进行 了 签名 声明 ， 那 么 在 函数 被 调用 的 时 候 会 对 hoge.dkm 
进行 搜索 。 在 创建 库 文 件 时 ，.dkm 实现 了 .dkh 中 定义 的 设计 。 

动态 加 载 时 搜索 的 目录 并 不 配置 在 环境 变量 DKM_REQUIRE SEARCH_ 
PATH 中 ， 而 是 从 DKM LOAD SEARCH PATH 中 获取 。 在 这 里 ， 特 意 使 用 两 个 不 
同 的 物理 路 径 来 区 分 库 文件 的 设计 和 实现 。 另 外 ， 也 可 以 使 用 “在 测试 过 程 中 将 
实现 文件 作为 存根 ”的 方法 。 

实际 上 ，.dkh 文件 作为 设计 公开 的 大 小 与 其 实现 ( .dkm 文件 ) 后 的 大 小 相 
差 其 殊 ，.dkh 和 .dkm 的 对 应 关系 应 该 是 1 : n 的 样子 ,但 是 这 样 一 来 ， 在 动态 加 
载 时 就 需要 男 外 指定 搜索 源 代码 的 方法 了 ， 因 此 这 里 先 让 它们 保持 1 : 1 的 状态 。 
我 认为 动态 加 载 是 能 够 使 用 Diksam 编写 大 程序 的 一 个 先决 条 件 。 


3. 包 

在 Diksam 中 ， 一 个 源 文件 就 对 应 着 一 个 包 (在 .dkh 和 .dkm 分 开 编 写 的 情况 
下 ， 它 们 两 个 的 代码 要 在 一 个 包 中 )。 

像 Java 那样 在 每 个 源 文件 的 开头 都 要 逐个 对 包 进 行 声 明 是 非常 麻烦 的 ， 通 党 
情况 下 ，Java 的 目录 层级 和 包 的 层级 一 致 ， 也 就 是 把 同样 的 信息 体现 在 了 两 个 地 
方 。 这 样 一 来 ， 在 修改 时 就 会 出 现 问题 (尤其 是 Java 的 包 名 ， 使 用 起 来 像 是 互联 
网 的 域名 )。 既 然 如 此 ， 单 纯 地 使 用 源 文件 名 和 包 名 的 组 合 可 能 更 简单 。 

Diksam 的 包 名 使 用 点 〈. ) 进行 分 割 ， 根 据 包 名 就 可 以 简单 地 分 清 层级 。 

require hoge.piyo.foo.bar; 

上 面 这 段 代 码 ， 会 以 DKM LOAD SEARCH PATH 中 设置 的 目录 为 起 点 ， 以 
包 名 的 最 后 一 个 名 字 之 外 的 部 分 ( 即 上 述 例子 中 的 “hoge/piyo/foo”) 为 目录 进行 
搜索 。 总 之 和 Java 一 样 ，Diksam 的 包 层 级 也 要 和 目录 层级 一 致 。 
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另外 , 在 C++ 或 者 C# 中 ， 一 个 源 文件 可 以 对 应 多 个 namespace, 但 是 一 般 
情况 下 都 不 会 这 么 做 。 我 觉得 在 这 种 事情 上 节省 没有 任何 意义 。 相 反 ， 一 个 包 可 
能 希望 由 多 个 源 文 件 构成 。 我 想 就 像 前 面 说 到 的 ， 这 是 能 够 使 用 Diksam 编写 大 
程序 的 一 个 先决 条 件 ， 也 正 因 如 此 ， 我 们 才 需 要 用 最 简单 的 办 法 来 解决 眼前 实现 
和 使 用 上 的 问题 。 

另外 ， 像 print () 这 样 标准 的 程序 库 被 收录 在 了 diksam.1lang 中 。 在 
这 次 要 制作 的 Diksam 的 版 本 ( Diksam book ver.0.3 ) 中 ,使 用 者 必须 要 手动 进 


行 require。 








4. rename 

在 进行 require 时 ， 如 果 引 入 了 多 个 包 中 的 同名 函数 时 会 发 生命 名 冲突 。 

在 Java 中 ， 可 以 通过 指定 全 限定 类 名 ( FQCN, Fully Qualified Class Name ) 
避免 这 个 冲突 (如 java.util.List 和 java.awt.List) 但 是 ， 这 样 编 写 代 
码 时 会 很 麻烦 ， 而 且 编写 出 来 的 代码 也 会 显得 杂乱 无 章 。 

因此 ， 在 Diksam 中 没有 指定 FQCN 的 方法 。 解决 冲突 的 方法 是 利 
用 rename 进行 如 下 操作 。 

rename com.kmaebashi.util.print myprint; 

上 面 这 段 代码 将 com.kmaebasnhi .util 包 的 print 函数 改名 为 myprint。 

rename 必须 写 在 源 代码 的 开头 和 require 之 后 。 还 有 ，rename 的 有 效 
范围 仅 在 当前 源 文件 中 ， 即 使 在 被 require 的 文件 中 使 用 了 *ename ， 也 不 会 影 
响 到 进行 require 的 文件 。 这 是 因为 ， 被 改名 后 的 名 字 只 在 当前 源 文件 内 可 见 ， 
这 样 做 的 目的 是 为 了 可 以 让 每 个 源 文件 都 能 识别 出 函数 的 真正 身份 。 


5. 开始 执行 

在 现在 的 Diksam 中 ， 如 果 执 行 下 面 这 上段 代码 ， 程 序 将 从 hoge.dkm 的 顶层 结 
构 开 始 执 行 。 

% diksam hoge.dkm 

即使 引入 了 require， 这 个 设计 仍然 没有 改变 。 总 之 ,程序 总 是 会 从 指定 源 
代码 的 顶层 结构 开始 执行 。 一 旦 程序 开始 执行 ， 就 可 以 调用 被 require 的 源 代 
码 中 的 函数 了 。 即 使 被 require 的 文件 有 顶层 结构 ， 也 是 不 会 执行 的 。 

可 以 把 Diksam 的 顶层 结构 看 作 是 Java 中 的 main() 方法 。main () 方法 在 
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程序 库 中 大 多 是 充当 测试 驱动 的 角色 吧 “。 


6. 关于 全 局 变量 

在 Diksam 中 ， 全 局 变量 是 在 函数 外 〈 顶层 结构 中 ) 声明 的 变量 ,但 是 其 他 
源 文 件 是 引用 不 到 这 个 全 局 变量 的 。 也 就 是 说 ， 如 果 只 有 在 多 个 源 文件 中 能 够 被 
任意 引用 的 变量 才 可 以 称 为 全 局 变量 的 话 ， 那 么 Diksam 中 就 不 存在 全 局 变量 。 
但 是 ， 多 个 源 文件 之 间 可 以 进行 函数 调用 ， 因 此 使 用 get_xxx() 、set 
xxx () 也 是 可 以 访问 全 局 变量 的 。 一 般 来 说 ， 应 该 尽 可 能 不 使 用 全 局 变量 ， 因 此 
我 认为 这 种 方式 再 适合 不 过 了 。 


补充 知识 。 #include、 文 件 名 、 行 号 

























































































虽然 和 本 节 的 主题 无 关 ， 但 这 里 还 是 要 提 一 下 ， 在 8.1.1 节 的 开头 写 道 : 


分 割 源 代码 的 方法 ， 最 简单 的 就 是 和 C 语言 里 面 的 #include 一 样 ， 骨 入 来 
自 于 其 他 源 文件 的 代码 。 这 个 方法 既 简 单 又 直接 ， 非 常 实用 。 

这 个 方法 非常 实用 ， 那 么 这 个 方法 就 是 个 好 方法 吗 ? 你 可 能 会 认为 ， 像 C 语言 的 
预 处 理 那 样 ， 如 果 事 先进 行 了 处 理 ， 编 译 器 就 无 需 在 执行 时 再 进行 校正 了 。 实 际 却 不 是 
这 样 的 。 值 得 注意 的 一 点 就 是 ， 必 须要 通过 某 种 方法 知道 被 require 的 文件 的 文件 名 
和 行 号 。 
区 用 #include 将 其 他 文件 嵌入 进来 的 话 ， 行 号 自然 会 发 生变 化 。 在 出 现 报错 信 

息 的 时 候 ， 将 变化 后 的 行 号 输出 给 使 用 者 的 行为 是 很 不 友好 的 ( JSP， 即 Java Server 
， Pages， 它 就 是 这 样 ， 会 将 自动 生成 的 Java 代码 的 行 号 直接 输出 )。 
Ra 刚 如 ，C 语言 的 预 处 理会 通过 下 面 的 形式 ， 将 行 号 和 文件 名 传递 给 预 处 理 后 的 文件 * 















































































































































































































































































































































方式 输出 。 #line 2 "hello.c" 


区 可 DVM_ExecutableList 


一 个 Diksam 编译 絮 和 一 个 源 文件 会 生成 出 一 个 DVM_Executable。 在 之 后 
可 能 会 对 一 个 源 文件 进行 分 割 ， 因 此 编译 后 也 可 能 生成 多 个 DVM_Executable。 

为 了 管理 这 些 DVM_ Executable, 我 们 引入 了 DVM ExecutableList 结 
构 体 (DVM _code.h )。 











typedef struct DVM ExecutableItem tag { 














(中 ”这 也 就 说 明了 为 什么 被 require 的 程序 不 执行 其 











洁 | 














妇 结 构 的 原因 。 一 一 译 者 注 
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PWMNEzecweacrheesexecweache 
StemuctepDv Meecutablentemnmtag .nes 
} DVM ExecutableItem; 


struct DVM ExecutableList tag { 
DVM Executable EOLUee 
DVMI Pxeeutablereem se, 


二 

这 是 一 个 通过 DVM ExecutableItem 保 存 DVM Executable 的 链表 的 

类 。 成 员 top_ level 在 通过 List 保存 了 DVM Executable 的 同时 ， 也 保存 
了 顶层 结构 ( 编译 器 启动 时 设 定 的 )。 


8.1.3 ExecutableEntry 


如 前 面 所 述 ，Diksam 中 没有 跨 文 件 的 全 局 变量 。 函 数 外 声明 的 变量 被 保存 在 
独立 的 命名 空间 中 ,没有 进行 链接 。 

在 以 前 的 数据 结构 中 ， 全 局 变量 运行 时 的 内 存 空间 保存 在 DVM_ 
VirtualMachine 中 ， 如 下 所 示 。 




















也 








typedef struct { 


ri varilabledcount, 
DVM Value rail 
oeacnes 


struct DVM VirtualMachine tag { 
中 间 省 略 ) 
SEEateme Sale wp 


中 间 省 略 ) 





Ve 

但 是 ， 正 因为 没有 进行 链接 ， 所 以 对 于 DVM 来 说 (全 局 变量 ) 没有 必要 保 
存 为 一 个 数组 。 一 个 DVM_Executable 中 保存 一 个 数组 就 可 以 了 。 

在 和 编译 器 共用 的 DVM_Executable 中 ， 不 能 只 保存 运行 时 使 用 的 数据 ， 
因此 引入 了 ExecutableEntry 结构 体 ， 如 下 所 示 (dvm pri.h )。 














struct ExecutableEntry tag { 
BVMEExeecutable execnEeable, 


statie Statnchy 函数 外 声明 的 变量 所 使 用 的 内 存 空间 


Stuumeeee ecutablerntee ad nem, 
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运行 时 ， 只 为 每 个 DVM Executable 分配 一 个 ExecutableEntry 数据 
结构 。 如 上 所 述 ， 其 中 保存 着 之 前 在 DVM_VirtualMachine 中 保存 的 全 局 变量 
(函数 外 声明 的 变量 ) 的 内 存 空间 。 


8.1.4 | 分 开 编译 源 代 码 


接 下 来 要 解决 的 问题 是 ， 在 一 个 源 文件 使 用 require 请 求 了 其 他 源 文件 的 
情况 下 ， 如 何 进行 编译 比较 好 ? 

比较 直接 的 想法 ， 我 想 是 在 解析 器 发 现 require 的 时 候 递归 调用 编译 器 。 
但 是 ， 因 为 在 yace/lex 的 内 部 使 用 了 很 多 全 局 变量 ， 所 以 不 能 使 用 递归 。 也 就 是 
说 ， 在 解析 一 个 文件 的 中 途 不 能 再 去 解析 其 他 文件 *。 

























































































人 款 用 bison 等 语法 解析 
器 时 可 以 使 用 递归 。 Diksam 的 编译 顺序 是 ， 在 一 个 源 文 件 完 成 编译 后 ， 再 按 顺 序 编 译 
被 require 的 源 文件 。 


DKC_Compiler 结构 体 作 为 Diksam 编译 的 核心 ， 其 内 部 保存 着 顶层 结构 的 
语句 列表 和 哨 数 ( FunctionDefinition ) 的 列表 等 。 在 编译 的 最 后 阶段 ， 会 根 
据 这 个 结构 体 生成 DVM_Executable。 从 结构 上 来 说 ,，DKC_Compiler 和 DVM 
Executable 是 1:1 的 关系 , 因此 在 源 文 件 中 编译 被 require 的 源 文件 时 , 会 为 
其 创建 一 个 新 的 DKC_Compiler 结构 体 。 

编译 Diksam 的 代码 时 ， 应 用 程序 会 调用 DKC_Compile () 函数 。 这 个 函数 
会 调用 do_compile () 方法 ， 如 下 所 示 。 


yyin = fp; /* 将 源 代码 fg ( 作为 起 点 ) 赋值 到 yyin 中 */ 
/* 生成 空 的 DVM_ ExecutableList */ 

Tse MeVImalloe (Zeon (nV Meeut oben 
ee 

































































/* 调用 do_compile()。 第 三 个 参数 为 源 文件 的 路 径 ， 但 在 这 个 层级 不 适用 。 */ 
exze -qdomeemele (oom nS NU MA 


do_compile() 的 内 容 如 代码 清单 8-1 所 示 (节选 )。 














代码 清单 8-1 


: static DVM Executable * 
do_compile() 


1 

2: do compile (DKC Compiler *compiler, DVM FExecutableList *list, 
汪汪 char *path, DVM Boolean is _ required) 
4 
5 


: { 





( 省 略 局 部 变量 的 声明 部 分 ) 
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6 /* 在 C 的 栈 中 回避 当前 编译 器 */ 

了 compiler backup = dkc get current compiler(); 
8: dkc set current compiler (compiler); 

EE 

10: /* 执行 解析 */ 

11: if (yyparse()) { 

工 2 fbrintf (stderr, "Error!lBrror!Brror!l\n"); 
13: exit(1);» 

14: } 

a 

16: /* 遍历 所 有 被 require 的 源 文件 */ 

于 了 for. (redq Dos = compiler->srequire 11st7 redq Bpos; 
18: req pos = req pos->next) { 

19: /* 检查 正在 编译 的 源 文件 是 否 有 相应 的 编译 器 */ 

20 : req comp = search compiler(st compiler list, req pos->package name); 
21: if (req comp) { 

22: compiler->required list 

23: = agdd compiler to list (compiler->required list, req comp); 
24: countinue; 

25: } 

26: /* 如 果 没 有 ， 创 建 一 个 新 的 编译 器 并 进行 编译 */ 

27: req comp = DKC create compiler(); 

28 

29: ( 中 间 省 略 。 这 里 将 搜索 到 的 源 文件 路 径 设 置 到 found_path 中 。 ) 
30 : req exe = do compilel(req comp, list, found path, DVM TRUE); 
31: } 

32. 

3 dkc fix tree(compiler); 

343 exe = dkc generate (compiler); 

35: EE, (Bat) :{ 

36: exe->path = MEM strdup (path); 

37: } else { 

38: exe->path = NULL; 

39 : } 

40: 

41: exe->is required = is required; 

42: if (!add exe to list(exe, list)) { 

43: dvm dispose executable (exe); 

44: 由 

45 : 

46 : /* 从 备份 中 恢复 当前 编译 器 */ 

47 : dkc_ set current compiler (compiler backup); 

48 

49: return EXE 

50:} 











在 函数 中 ，yyin 的 值 被 设置 为 源 文件 的 文件 指针 ， 并 在 第 11~14 行 解析 这 个 
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文件 。 之 后 ， 按 照 顺序 循环 地 编译 从 第 17 行 开 始 的 代码 。 

前 面 已 经 提 到 过 ， 当 前 版 本 的 Diksam 会 为 每 个 源 文件 生成 一 个 编译 
器 (DKC_Compilez)。 然后 ， 执 行 过 一 次 编译 的 编译 器 被 保存 在 名 为 st_ 
compiler list 的 static 的 链表 中 。 在 第 20 行 被 调用 的 困 数 search 
compilezr () 是 为 了 在 第 1 个 参数 st compiler list 中 搜索 是 否 有 编译 过 当 

前 包 的 编译 器 。DKC_Compilez 保存 着 包 名 ， 如 果 包 已 经 被 编译 过 ， 将 对 应 的 编 
译 吉 添 加 到 正在 编 ; 对 器 的 require_1ist 中 (第 22~23 行 )。 这 个 结构 很 
像 树 结构 ， 但 是 这 个 结构 是 为 了 共享 同一 个 被 多 次 require 的 源 文件 ， 因 此 实 
际 上 它 并 不 是 树 名 而 是 DAG (有 向 无 循环 图 ，Directed Acyclic Graph ) 结构 。 

如 果 有 没有 编译 过 源 文件 的 话 ， 从 第 27 行 开 始 的 代码 会 创建 一 个 新 的 编译 
器 并 进行 编译 。 

并 且 ， 第 一 次 启动 时 ,st_compiler list 的 生命 周期 是 从 第 一 次 编译 结束 
到 开始 运行 之 前 。 因 此 ， 在 动态 加 载 的 时 候 同样 的 源 代码 会 被 再 次 编译 。 详 细 请 
参考 8.1.5 节 的 补充 知识 。 

第 29 行 中 间 省 略 了 通过 DKM _REQUIRE _ SEARCH PATH 搜索 被 require 的 源 
文件 并 返回 文件 指针 等 一 连 串 的 处 理 。 之 后 将 返回 的 文件 指针 作为 参数 ， 递 归 调 
用 do_compile() 函数 (第 30 行 )。 

所 有 的 子 文件 都 编译 过 后 ， 将 使 用 dkc_generate() 创建 DVM Execut- 
able， 然 后 将 其 注册 到 DVM_ExecutableList 中 (第 42 行 )。 

最 终 状 态 的 DKC_Compilez 的 结构 如 图 8-1 所 示 。 














梳 























































































































图 8-1 根据 起 点 源 文件 的 require 创建 
编译 器 编译 后 的 结构 编译 器 ,并 以 DAG ( 有 向 无 循环 图 ) 
PR 共享 被 多 个 源 文件 
” require 的 源 文 件 














首先 ， 创 建 与 作为 起 点 
的 源 文件 对 应 的 编译 器 


4 
Se Be 
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BREICompales 


创建 


和 DVM Executable 





BKENComp le 


创建 
es 经 过 编译 , 创建 的 所 


编译 器 将 逐个 ( 为 为 每 个 源 文件 ) 有 DVM Executable 
“都 被 存储 到 一 个 DVM_ 
ExecutableList 中 





































创建 DVM_Executable 
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ye 





区 本 加 载 和 再 链接 


由 于 编译 是 以 源 文件 为 单位 进行 的 ， 因 此 完成 编译 之 后 ， 还 需要 进行 链 
接 。 链 接 是 指 把 不 同 源 文件 中 出 现 的 同名 函数 进行 对 应 的 操作 。 本 节 是 继续 6.4.1 
节 的 内 容 作 介 绍 。 

在 C 等 语言 中 ， 全 局 变量 也 必须 进行 链接 ， 但 是 在 Diksam 中 并 没有 可 以 跨 
源 文件 的 全 局 变量 ， 因 此 有 必要 和 其 他 源 文件 进行 链接 的 就 只 有 函数 了 (虽然 后 

会 出 现 类 的 概念 )。 
现在 , “函数 ”的 数据 保存 在 以 下 三 个 地 方 。 





























1. DKC_ Compiler 中 的 FunctionDefinition 列 表 

这 个 对 应 表 中 保存 了 在 当前 源 文件 中 定义 的 原型 声明 函数 。 如 果 只 是 签名 声 
明 的 话 ， 指 向 实现 程序 块 的 成 员 plock 应 为 NULL。 

这 其 中 并 不 保存 被 require 的 .dkh 文件 中 声明 的 函数 。 这 些 函 数 将 保存 在 自 
己 所 在 .dkh 文件 对 应 的 编译 器 中 ， 因 此 ， 在 搜索 前 数 的 工具 函数 dkc_search 
function() 中 ,为 了 搜索 参数 指定 的 函数 ， 需 要 递归 地 思 历 所 有 子 编译 器 〈utilLc )。 




















2. DVM Executable 中 的 DVM Function 数 组 

DVM_Executable 的 DVM_Function 数组 中 ,保存 着 当前 源 文件 中 出 现 的 
所 有 好 数 。 

假设 在 源 文 件 a.dkh 中 require 了 b.dkh, 并 且 调 用 了 b.dkh 中 声明 的 函数 b_ 
func()。 此 时 ,pb_func() 并 没有 保存 在 a.dkh 的 FunctionDefinition 中 ， 
而 是 保存 在 DVM_Executable 中 。 

就 像 6.4.1 节 中 介绍 过 的 那样 ， 在 完成 编译 时 ， 指 令 push_function 指定 
的 函数 的 索引 值 就 是 这 个 数组 的 下 标 。 因 此 ， 一 般 情 况 下 所 有 需要 被 调用 的 函数 
都 会 保存 在 这 个 对 应 表 中 。 

至 于 索引 值 ， 加 载 时 会 在 字 节 码 中 直接 替换 为 DVM_VirtualMachine 
中 Function 数组 的 下 标 (请 参考 6.4.1 节 )。 














3. DVM VirtualMachine 中 的 Function 数组 
DVM VirtualMachine 中 的 Function 数组 保存 着 链接 后 的 函数 ， 每 个 
DVM 中 只 有 一 个 该 数组 。 
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修改 为 即使 使 








alloc () 元 素 ， 地址 





也 不 会 改变 的 


结构 
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因为 Diksam 是 动态 加 载 的 ， 所 以 这 个 对 应 表 中 保存 的 函数 还 是 没有 实现 的 
状态 。 此 时 ， 成员 is_implemented 都 是 false。 

并 且 ， 这 个 数组 在 以 前 的 版 本 中 以 可 变 长 数组 的 形式 保存 在 了 DVM_ 
VirtualMachine 结构 体 中 ,但 是 ， 现 在 变 成 了 “指针 的 可 变 长 数组 ”。 后 面 将 
会 说 到 ， 基 于 动态 加 载 ， 这 个 数组 会 使 用 realloc () 进行 扩展 。 之 前 的 结构 如 
果 使 用 了 realloc () 会 使 Function 结构 体 的 地 址 发 生变 化 。 因 此 ， 我 们 需要 
一 个 即使 扩展 了 数组 的 元 素 地 址 也 不 会 改变 的 结构 ( 如 图 8-2 )。 


以 前 的 保存 方法 修改 后 的 保存 方法 


DKC VirtualMachine DKC VirtualMachine 


变 为 指针 数组 的 话 ， 即 



























































想 要 使 用 指针 指 使 使 用 realloc()， | 
向 数组 内 特定 的 各 Function 的 地 址 

一 | 
Function, 可 = 也 不 会 改变 | | 
是 不 太 方 便 。 























为 此 ， 可 以 更 便捷 
realloc () 数组 时 ， 也 指定 某 个 特定 的 一 
将 改变 各 Function 


的 地 址 Punction 


具体 的 实例 请 参考 以 下 三 段 源 代码 ( hoge.dkm,， piyo.dkh,， piyo.dkm )。 
hoge.dkm: 











require piyo; 


ntoenogemevme 
DvomNEvmel 


} 

hoge func(); 
piyo.dkh: 

a Tale Ewin ly 
piyo.dkm: 

require diksam.1lang; 


me 
DEE (ON 


} 
各 个 源 文件 在 对 应 表 中 的 注册 状态 如 图 8-3 所 示 。 
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8-3 
Fe piyo.d kh pt 


| lang.dkh 局 
;|DKC Compiler DVM Executable rr ; 
; FunctionDefinition DVM Function ; : :|DKC_ Compiler DVM Executable : : 
>|piyo_func( 未 实现 ) piyo_func( 未 实现 ) 了 了 3; FunctionDefinition DVM_Function 


: print 原生 print 原生 











; Functiomefinition DVM Function : : 
: : ; 7 FunctionDefinition DVM Function : : 读 取 的 范围 
: 4 i pote] “pivoeme | i 
SE A 二 : 


始 执行 时 没有 

















































向 FunctionDefinition DVM Function 中 aaaseseasss nn 有 
中 注册 源 文件 中 定义 或 者 ”一般 情况 下 只 注册 被 
声明 的 函数 调动 了 的 函数 启动 时 的 DVM 

l Function : 













piyo_func( 未 实现 ) 


由 于 在 hoge.dkh 中 仅 定 义 或 者 签名 声明 了 琐 数 hoge_func () ， 因 此 Func- 
tionDefinition 也 只 注册 了 一 个 函数 。 但 是 ，DVM_Executable 的 DVM_ 
Function 中 只 注册 了 被 调用 的 piyo_func () 函数 。push_function 指令 创 
建 不 了 的 函数 不 会 注册 到 这 里 。 

hoge.dkm 中 被 require 的 piyo.dkh 也 会 被 同时 编译 。 在 这 里 被 声明 
的 piyo_func() 会 同时 注册 到 piyo.dkh 的 FunctionDefinition 和 DVM 
Executable 两 个 地 方 。 

在 执行 开始 时 只 编译 了 这 两 个 文件 。 在 这 个 状态 中 ， 会 根据 DVM_ 
VirtualMachine 的 Function 创建 对 应 表 ， 并 将 经 常 以 原生 孔 数 形式 出 现 
的 print ()、hoge func() 和 piyo_func() 注册 进来 。 但 是 ， 虽 然 piyo.dkm 
描述 了 实现 但 还 没有 被 加 载 ， 因 此 还 没有 实现 piyo_func () 。 

















TT 
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例如 Java 中 的 “ 超 类 ” 


在 C++ 上 


类 "。 
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一 且 piyo_func() 被 调用 ， 就 会 进行 动态 加 载 。 动 态 加 载 功能 首先 新 创 





建 





一 个 piyo.dkm 的 编译 器 ， 然 后 再 创建 一 个 被 require 的 lang.dkh 的 编译 器 ， 
后 将 创建 出 来 的 DVM_Executable 链接 到 DVM VirtualMachine 中 ， 并 开 
执行 piyo_func ()。 

















三 | 
有 取 


始 


补充 知识 ”动态 加 载 时 的 编译 器 
只 需 一 次 编译 ， 就 可 以 让 同一 个 文件 在 任何 地 方 都 能 被 require， 与 此 相对 ， 





























口 
AN 














创建 一 个 DKC_Compiler 就 可 以 了 。 在 代码 清单 8-1 中 说 明了 其 实现 方法 ， 即 
用 static 的 变量 st compiler list 保存 所 有 编译 器 。 
但 是 ， 也 会 发 生 这 样 的 情况 ， 在 a.dkm 中 require 了 b.dkh，b.dkh 中 动态 加 




























































































的 b.dkm 又 调用 了 a.dkm 中 的 函数 。 在 现在 的 实现 中 ， 只 会 为 a.dkm 创建 一 个 DVM 




















Executable， 但 是 却 会 多 次 创建 DKC_Compiler。a.dkm 的 DKC Compiler 
































使 


载 


在 





第 一 次 编译 后 将 被 销毁 ， 但 编译 b.dkm 时 又 必须 使 用 a.dkm 的 编译 器 。 在 b.dkm 
的 FunctionDefinition 中 只 注册 了 a.dkm 中 被 调用 的 函数 ， 但 请 记 住 它 是 会 搜索 















































子 编译 器 的 。 


























同一 个 源 文件 被 编译 多 次 确实 很 浪费 ， 但 是 现在 的 Diksam 还 不 能 把 字 节 码 保存 在 






































文件 中 ， 因 此 在 执行 时 必须 要 有 源 代 码 。 考 虑 到 这 样 的 情况 ， 虽 然 很 浪费 但 也 没有 什么 






































坏处 ， 在 实用 性 上 也 不 会 有 问题 。 
等 到 日 后 字 节 码 可 以 保存 到 文件 中 的 时 候 ， 只 需 使 用 DVM_Executable 中 包 
的 DVM_Function 等 信息 就 可 以 完成 源 代码 的 编译 了 。 
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在 成 功 将 源 文件 分 割 后 ， 接 下 来 就 要 考虑 类 的 设计 了 。 


区 下 超 简单 的 面向 对 象 入 门 


设计 类 一 定 会 考虑 到 数组 ( array )。 但 是 ， 考 虑 到 本 书 的 目标 读者 是 掌握 
语言 ， 并 具有 一 定 代码 阅读 能 力 的 程序 员 ， 因 此 ， 我 觉得 这 里 突然 开始 类 和 面向 
象 的 话题 好 像 不 太 合适 。 另 外 ， 面 向 对 象 的 相关 用 语 在 不 同 语言 中 也 不 尽 相同 
被 称 为 “ 基 因此， 本 节 将 要 讲解 的 是 包含 用 语 含义 在 内 的 一 些 简单 的 面向 对 象 概念 。 
Diksam 的 面向 对 象 与 Java、C++ 和 C# 相同 ， 都 是 基于 类 的 面向 对 象 。 

















































































































Q 了 
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(class ) 近似 于 C 中 的 结构 体 类 型 ， 但 是 与 其 关联 的 动作 (函数 ) 可 以 保存 在 类 
中 ， 被 称 为 方法 ( method )， 数 据 成 员 被 称 为 字段 (field )。 


class Point { 





double x; 
dev 
// 定义 Point 的 方法 print () 
watel enedae (0) 
Tm Ena (Se te ny 


} 
} 


方法 以 p.print () 的 形式 调用 。 如 果 是 C 语言 的 话 ， 第 1 个 参数 要 传人 指 
向 Point 的 指针 。 但 是 ， 在 面向 对 象 的 语言 中 ， 每 个 类 都 拥有 不 同 的 命名 空间 ， 
其 优势 在 于 (与 C 语言 相 比 ) 无 需 特别 注意 命名 。 

之 前 说 到 了 类 “近似 于 C 中 的 结构 体 ”， 在 C 语言 中 声明 结构 体 的 类 型 时 ， 
并 不 会 为 其 创建 内 存 空间 。 与 此 相同 ，Diksam 中 也 需要 使 用 new 来 创建 内 存 空 
间 ， 相 当 于 C 语言 中 的 malloc () 操作 。 被 new 创建 出 来 的 叫 作 对 象 ( object ) 
或 者 实例 (instance )。 

Point p = new Point (); 
Diksam 中 的 类 全 部 属于 引用 类 型 ， 因 此 上 面 代 码 中 的 p 相当 于 C 语言 中 的 
上 针 。 但 是 ， 如 果 要 引用 字段 或 者 方法 ,不 是 使 用 -> 而 是 使 用 . (和 Java 等 语 
言 相 同 )。 

在 Diksam 这 样 的 面向 对 象 语言 中 ， 可 以 使 用 继承 ( inheritance ) 的 方式 为 类 
添加 字段 或 者 方法 。 例如 ， 在 制作 一 个 二 维 图 形 绘 制 工具 时 ， 要 定义 一 个 代表 
图 形 的 类 Shape。 在 Shape 中 保存 着 “颜色 ”等 所 有 图 形 都 共有 的 属性 。 又 如 ， 
“开始 和 结束 坐标 ”是 直线 ( Line ) 中 特有 的 数据 。 因 此 ， 如 果 在 定义 Line 的 时 
候 继承 Shape, 那么 Dine 将 既 具 有 Shape 的 “颜色 ”属性 ,又 具有 自己 特有 的 
“开始 和 结束 坐标 ”属性 。 

与 此 相似 ，crowbar 和 Diksam 的 源 代 码 中 ， 在 Expression 结 构 体 
和 Statement 结构 体 中 的 实现 方法 是 “使 用 枚 举 类 型 区 分 不 同 种 类 (数据 类 
型 )， 将 每 个 种 类 的 数据 保存 在 联合 体 中 ”。 可 见 ， 在 C 语言 中 想 要 实现 这 个 功 
能 ， 必 须 在 程序 员 的 层面 “约定 ">， 但 是 ， 对 于 面向 对 象 的 语言 来 说 ， 它 本 身 就 
能 够 显 式 地 提供 此 功能 。 

如 此 一 来 ,在 Line 继承 Shape 的 时 候 ， Shape 被 称 为 Line 的 超 
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类 ，Line 被 称 为 Shape 的 子 类 。 根 据 不 同 语言 超 类 也 叫 作 父 类 ( parent class ) 
和 基 类 ( base class )， 子 类 也 叫 作 孩 子 类 ( child class ) 和 派生 类 ( derived class )。 
另外 也 有 “把 类 沿 着 超 类 方向 追溯 到 的 所 有 类 称 为 祖先 (ancestor )， 并 把 子 类 方 
问 的 所 有 类 称 为 子孙 ( descendant )” 的 说 法 。 

子 类 的 引用 通常 可 以 赋值 给 类 型 为 父 类 的 变量 ， 也 就 是 说 Line 或 
者 circle( 圆 ) 可 以 赋值 给 Shape。 例 如 ， 有 一 个 Shape 类 型 的 数据 ， 其 中 可 
以 保存 Line、Circle、Rectangle( 算 形 ) 等 图 形 。 

然后 ， 为 了 描述 数组 中 的 所 有 图 形 ， 为 Shape 添加 draw() 方法 (可 以 不 
实现 )。 





























// abstract 和 virtual 的 话题 将 在 后 面 叙 述 
abstract class Shape { 

中 间 省 略 ) 
// 声明 没有 实现 的 araw() 方法 
Sbaeract ev eu on oram 























} 
在 每 个 子 类 中 覆盖 ( override ) 这 个 方法 。 


// 继承 了 Shape 的 Line 类 的 定义 
class Line : Shape { 

中 间 省 略 ) 

override void draw() { 


//Line 的 描绘 处 理 











} 
} 


基于 上 面 这 些 代码 ， 数 组 中 保存 的 Shape 将 以 如 下 方式 依次 调用 draw() 方 
法 ， 如 果 是 Line 的 话 调 用 Line 的 描绘 方法 ， 如 果 是 circle 的话 则 调 
用 circle 的 描绘 方法 。 这 种 特性 被 称 为 多 态 ( polymorphism )。 


shape napenar ey 

// 假设 已 经 设置 过 shape_array 的 值 了 

for (9 0 haperTarnay ze 
shape.draw(); 














} 

与 在 crowbar 和 Diksam 中 的 做 法 相似 ，C 语言 中 如 果 也 使 用 枚 举 类 型 和 联 
合体 实现 “模拟 继承 ”的 话 ， 就 必须 进行 “根据 枚 举 类 型 用 switch case 判断 分 
支 ” 的 处 理 了 (比如 Diksam 的 fix expression 就 包含 一 个 巨大 的 switch 
case )。 编 写 switch case 本 身 倒是 不 成 问题 ,问题 在 于 当 枚 举 类 型 的 种 
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字 节 码 保存 为 文件 ， 
义 不 论 如 何 都 要 村 
编译 。 











ye 





因为 Diksam 并 没有 将 


所 
新 





类 增加 的 时 候 ， 就 不 得 不 去 修改 分 散 于 各 处 的 swith case。 特 别 是 Shape， 
当 增 加 图 形 种 类 的 需求 越 来 越 强 烈 的 时 候 ， 这 个 问题 就 变 得 尤为 突出 了 。 在 
使 用 了 多 态 后 ， 即 使 图 形 的 种 类 增加 了 ， 在 上 述 示例 代码 中 也 没有 必要 修 
改 Shape 的 araw() 方法 的 调用 位 置 ， 也 就 不 必 再 次 进行 编译 了 *。 

就 像 上 面 说 到 的 ， 子 类 的 引用 通常 可 以 赋值 给 类 型 为 超 类 的 变量 ( 此 处 发 生 
的 自动 类 型 转换 被 称 为 向 上 转型 ， 即 up cast )， 但 是 这 并 不 意味 着 超 类 的 引用 能 
够 赋值 给 子 类 的 变量 。Line 必然 是 Shape， 但 Shape 不 一 定 是 Line ( 说 不 定 
是 Circle 或 Rectangle 呢 ), 然而 ,在 Diksam、Java、C#、C++ 中 都 有 强制 
将 shape 转换 ( 即 向 下 转换 ，down cast ) 为 Line 的 手段 (在 向 下 转换 时 有 可 
能 会 发 生 错 误 )。 

在 Diksam 、Java 和 C# 中 ， 除 了 类 之 外 ， 还 有 接口 ( interface ) 的 概念 。 它 类 
似 于 只 有 方法 的 声明 的 类 。 

例如 , Line 和 Circle 可 能 会 有 在 调试 时 显示 坐标 等 信息 的 需求 。 如 果 只 考 
虑 Shape 的 话 ， 为 Shape 添加 print () 方法 并 由 各 图 形 进行 覆盖 就 可 以 达到 
目的 了 ， 但 是 如 果 考 虑 到 下 面 的 情况 呢 ? 

想 要 制作 一 个 void debug_write (Printable obj) 函数 以 便 控制 程序 “只 在 调试 模式 时 

输出 "。 

传递 给 这 个 函数 的 参数 对 象 也 许 和 Shape 之 间 并 没有 任何 继承 关系 。 

这 种 情况 下 就 可 以 使 用 接口 了 。 


interface Printable { 



















































































wool Norse 


} 

有 了 上 面 的 接口 后 ， 各 个 类 都 可 以 对 其 进行 实现 ， 每 个 类 都 会 有 “print 自 
己 的 内 容 ” 这 个 功能 的 通用 接口 ( 实际 的 编写 方法 请 参考 8.2.4 节 )。 

Diksam 中 的 类 只 能 进行 单 继承 ( single inheritance )， 即 一 个 类 只 能 对 应 一 个 
超 类 。 这 种 方式 在 Java 和 C# 中 相同 。 但 是 ,在 C++ 中 是 允许 多 继承 ( multiple 
inheritance ) 的 。 

关于 接口 ，Diksam 是 允许 多 继承 的 。 这 一 点 也 和 Java、C# 相同 ( C++ 允许 
类 的 多 继承 ， 因 此 一 般 情况 下 不 会 出 现 接口 )。 

基于 类 的 面向 对 象 大 概 就 介绍 到 这 里 ， 没 有 介绍 到 的 部 分 请 大 家 参考 市 面 上 
其 他 的 参考 书 吧 。 
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8.2.2 | 类 的 定义 和 实例 创建 


Diksam 中 类 的 设计 基本 上 采用 了 C++、Java、C# 的 方式 ， 虽然 更 像 是 由 
C++ 派生 出 的 类 型 的 语言 ， 但 是 也 有 意 地 改变 了 一 些 地 方 。 

作为 类 定义 的 典型 例子 ， 首 先 让 我 们 考虑 一 下 在 二 维 坐 标 上 保存 一 个 点 的 
类 Point (代码 清单 8-2 )。 
























































代码 清单 8-2 1: require diksam.lang; 
Point 类 的 定义 > 

3: public class Point { 

4 private double x; 

5 private double y; 

6 

7 double get x() { 

8 return this.x; 

9 } 
£0: void set x(double x) { 

于 LS 

2 } 

3 // 由 于 篇 幅 限制 ， 省 略 get_y(),， set y() 

4 

5 void print() { 

6 println("x.." + this.x + ",y.." +this.y); 

7 } 

8 // 默认 的 构造 函数 的 名 称 是 “initialize” 
19 : constructor initialize(double x, double y) { 
20: I oh 
2 ES YY = yy 
22: } 

23: } 

24: 

25: // 创建 Point 的 实例 

26: Point p = new Point (10, 20);，; 
27 

28: // 显示 pp 的 内 容 

29 pprint() 








虽然 看 上 去 和 Java 等 语言 的 类 差不多 ,但 是 Diksam 的 类 有 以 下 这 些 不 同 点 。 


1. 引用 成 员 时 必须 使 用 this. 

看 了 第 8 行 应 该 能 明白 ， 作 为 返回 值 返回 成 员 变 量 (字段 ) x 时 写作 this . 
x。 在 Java 等 语言 中 虽然 可 以 用 这 种 写法 , 但 如 果 只 写 x 也 可 以 引用 到 这 个 字段 。 
可 是 在 Diksam 中 ,不 显 式 地 写 上 this. 的 话 就 不 能 引用 属于 类 自身 的 字段 和 方 
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重 载 很 容易 和 重 写 混 
淆 ， 它 们 是 两 个 完全 不 
同 的 概念 。 











如 果 遇 到 了 int 升级 
为 double ( 译注 : 构 
造 方法 在 同一 位 置 上 的 
参数 既 有 int 型 参数 的 
也 有 double 型 参数 的 ) 
或 者 继承 "的 情况 ， 就 
不 能 简单 地 决定 到 底 使 
哪个 方法 了 。 





























ye 





法 。 这 里 是 有 意 为 之 。 

类 是 多 个 方法 的 集合 体 ， 有 时 候 也 可 能 会 制作 一 个 相当 巨大 的 类 。 虽 然 在 
Java 等 语言 中 的 做 法 是 为 了 能 够 简单 地 引用 到 字段 ， 但 是 随 着 类 的 增 大 ， 字 有 段 会 
慢 慢 呈现 出 全 局 变量 的 样子 。 

例如 。java.awt.Component 的 源 代 码 大 约 有 8500 行 (JDK5.0 )， 在 其 中 
能 够 自由 地 引用 像 x、y 这 么 短 名 字 的 属性 ， 这 对 我 来 说 简直 就 是 自杀 行为 。 

因此 在 Diksam 中 ， 即 使 是 在 类 内 部 引用 类 的 成 员 ， 也 必须 使 用 this.。 

这 里 采用 了 和 Python 一 样 的 语法 ， 可 能 有 些 人 讨厌 这 样 ， 但 是 我 挺 喜欢 的 。 


2. 成 员 的 访问 修饰 符 只 有 public 和 private, 没有 protected 

在 Diksam 中 public 是 从 包 外 部 可 以 访问 的 意思 。 第 3 行 的 class 前 面 附 
加 的 public 就 是 这 个 意思 。 第 4~5 行为 成 员 设 定 的 private 是 不 能 从 本 类 
以 外 访问 的 意思 。 如 果 同 时 加 上 public 和 private 的 话 , 就 只 有 当前 包 内 可 
以 引用 。 

而 且 ， 通过 代码 清单 8-2 就 应 该 能 理解 ， 在 Diksam 中 类 的 访问 修饰 
符 protected 是 不 存在 的 。 这 样 做 的 原因 将 在 后 面 详细 介绍 ， 但 是 基本 的 思路 
是 , 不 要 让 因为 别人 有 可 能 会 制作 子 类 ， 成 为 放松 访问 限制 的 借口 。 


3. 构造 方法 要 使 用 constructor 修 饰 符 

构造 方法 ( constructor ) 是 在 创建 类 的 实例 时 调用 的 方法 ,通常 会 在 里 面 编写 
类 的 初始 化 处 理 。 

Java、C++、C# 等 语言 的 构造 方法 必须 和 类 名 相同 ， 可 以 使 用 方法 重 
载 ( method overload ) 实现 多 个 构造 方法 。 方 法 重 载 就 是 多 个 方法 名 称 相 同 ， 但 参 
数 的 数量 和 类 型 不 同 ， 内 部 处 理 也 不 同 〈 但 编程 语言 会 认为 它们 是 一 个 函数 ) *。 

但 是 ， 方 法 重 载 是 混乱 的 根源 *， 毕 竟 不 是 什么 都 能 用 重 载 来 解决 的 。 例 如 ， 
在 代码 清单 8-2 的 Point 类 中 ,将 直角 坐标 系 的 x,y 传递 给 构造 方法 。 但 是 
如 果 是 使 用 极 坐 标的 应 用 程序 ， 疏 怕 就 要 给 构造 函数 传人 9 ( 偏 角 ) 和 p( 极 径 ) 
了 。 但 不 论 是 直角 坐标 系 的 x,y， 还 是 极 坐标 的 0、p， 都 是 两 个 aouble 的 组 
合 ， 因 此 在 方法 重 载 上 无 法 区 分 (这 个 例子 中 指出 了 后 面 将 要 介绍 的 OOSC™ 
的 问题 )。 总 之 ,“ 构 造 方法 要 和 类 的 名 字 相 同 ” 这 种 设计 本 喘 ， 我 认为 是 不 合 
理 的 。 






































































































































































































































中 ”构造 方法 在 同一 位 置 上 的 参数 既 有 子 类 型 的 参数 也 有 父 类 型 参数 。 
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因此 在 Diksam 中 为 构造 方法 加 上 了 constructor 关键 字 ， 在 new 的 时 候 
可 以 指定 任意 的 构造 方法 。 

代码 清单 8-2 的 第 26 行 省 略 了 方法 名 。 这 种 情况 下 ， 会 直接 调用 默认 构造 方 
法 initialize()( 第 19 行 ) 如 果 第 26 行 写成 下 面 这 样 : 








Bolt ee ew Pomme mm na (0 
就 会 直接 调用 被 指定 的 myinit () 方法 代替 原来 的 initialize() 方法 。 
在 定义 类 的 时 候 ， 如 果 没 有 定义 任何 的 构造 方法 的 话 ， 编 译 需 会 自动 添加 一 
个 默认 构造 方法 (default constructor )， 如 下 所 示 : 


public virtual override constructor initialize() { 
super.initialize (); SE 




















} 


4. 没有 static 的 字段 和 方法 

在 Java、C++ 和 C# 中 ， 使 用 static 关键 字 可 以 定义 一 个 与 实例 无 关 的 字 
段 或 者 方法 。 与 实例 无 关 的 意思 就 是 ， 除 了 访问 域 的 问题 外 ， 其 他 方面 与 全 局 变 
量 或 者 函数 完全 相同 。 在 Diksam 中 一 般 都 会 写成 全 局 变量 或 者 函数 ， 因 此 抛弃 
了 static 的 字段 或 者 方法 。 

















继承 


说 起 类 当然 会 提 到 继承 。 代 码 清 单 8-3 就 是 Diksam 中 继承 的 示例 代 






















































































码 。Point2 继承 了 Point1 并 重 写 了 print () 方法 。 
1: require diksam.lang; 
下 汪 
3: // 不 人 abstract 关键 字 的 类 不 能 被 继承 
4: abstract class Point1 { 
5: double x; 
6 double y; 
7 
8 // 不 使 用 virtual 关键 字 的 方法 不 能 被 重 写 
9: virtual void print() { 
L038 println("x.." + this.x + ", y.." + this.y); 
11: } 
12: // 构造 方法 不 使 用 virtual 也 不 能 被 重 写 
L133 Virtual constructor initialize (double x, double y) { 








sn 
= 
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14 : 这 二 区 
15.s ti 
16: } 

和 这- 中 

183 












































19: // 继承 时 没有 使 用 Java 的 extends 关键 字 ， 而 是 人 了 C+t+/C# 的":" 
20: class Point2 : Pointl1 { 





















































21: // 进行 重 写 的 时 候 要 使 用 override 关键 字 

22: override void print() { 

23: println("override: x.." + this.x + ", y.." + this.y); 
24: } 

25: // 构造 方法 也 可 以 被 继承 和 重 写 

26: override constructor initialize (double x, double y) { 
站 了 this.x = x + 10; 

28: this.y =y + 10; 

29 : } 

S051} 

31 


32: // 给 Point1 的 变量 p 赋值 为 Point2 的 实例 
33: Pointl p = new Point2(5, 10); 

34: 
35: // 方法 被 重 写 了 ， 所 以 调用 的 是 
36: // Point2 的 print() 方法 
37: Bprint(); 


代码 清单 8-3 的 执行 结果 如 下 : 
overrided Te0000000 7 2205000000 

通过 这 样 一 个 结果 ， 能 看 出 如 下 特征 : 
1. 方法 默认 为 non virtual 

在 第 8 行为 想 要 被 重 写 的 print () 方法 添加 了 virtual 关键 字 。 在 Diksam 中 
类 会 被 默认 定义 为 不 可 被 继承 (在 Java 中 为 final ) 的 ， 只 有 显 式 地 添加 关键 字 
virtual， 方 法 才 可 以 被 继承 。 这 里 的 设计 和 C++、C# 一 致 。 

关于 这 点 我 想 还 存在 很 多 异议 ， 详 细 内 容 我 会 在 后 面 的 章节 中 说 明 。 


2. 重 写 时 必须 使 用 override 关 键 字 

第 21 行 ，Point2 重 写 Pointl 的 print () 方法 时 在 前 面 添加 了 override 关键 
字 (与 C# 相 似 )。 如 果 不 加 override， 又 定义 了 和 超 类 同名 的 方法 的 话 ， 就 会 发 
生 错 误 。 

这 点 的 根据 是 “ 重 写 必 须 显 式 进行 ”的 原则 ， 还 得 到 了 一 个 附带 的 好 处 ， 就 
是 如 果 误 定义 了 函数 名 ， 会 发 生 编译 错误 。 
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实际 在 Eiffel 中 构造 方 
法 也 是 可 以 重 写 的 。 


代码 清单 8-4 





接 

















的 定义 
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3. 使 用 : 继承 
在 第 18 行 中 定义 了 继承 Point1 的 Point2 类。 之 所 以 没有 使 用 Java 的 关键 
字 extends， 是 因为 不 想 让 继承 的 关键 字 太 长 ， 因 此 使 用 了 C++/C# 的 “:”。 


4. 构造 方法 也 可 以 被 继承 和 重 写 

在 Java、C++、C# 中 ， 构 造 方法 都 是 与 类 名 相同 的 ， 因 此 构造 方法 不 能 和 
继承 (但 是 可 以 通过 super () 调用 )。 另 外 ， 从 语法 角度 讲 也 不 可 能 重 写 构 造 
方法 。 

但 是 ， 在 Diksam 中 可 以 任意 决定 构造 方法 的 名 字 ， 我 认为 能 够 重 写 构造 方 
法 也 不 是 坏事 *。 因 此 ， 在 Diksam 中 构造 方法 也 可 以 被 继承 和 重 写 。 基 于 这 个 设 
计 ， 就 可 以 把 在 超 类 中 定义 的 构造 方法 看 作 是 默认 实现 。 


5. 只 有 abstract 的 类 可 以 被 继承 

第 4 行 ， 为 类 Pointl 添加 了 abstract 关键 字 。 添 加 了 abstract 的 类 
(抽象 类 ) 只 是 为 了 被 继承 而 存在 的 类 ， 抽 象 类 本 身 不 能 被 实例 化 。 

因此 ， 在 Diksam 中 抽象 类 以 外 的 类 ( 具象 类 ，concrete class ) 不 能 被 继承 。 

对 于 这 个 限制 ， 可 能 大 多 数 人 会 持 否 定 的 态度 。 但 是 ， 这 个 设计 并 不 是 为 了 
让 实现 起 来 更 简单 而 妥协 的 结果 ， 是 有 意 为 之 。 至 于 为 什么 要 这 么 做 ， 我 会 在 后 
面 的 章节 中 说 明 。 


8.2.4 关于 接口 


与 Java、C# 一 样 ，Diksam 的 类 也 只 能 单 继 承 。 能 够 多 继承 的 只 有 接口 ( 代 
码 清单 8-4 )。 
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1: require diksam.lang; 

2 

3: interface Printable { 

4 void print(); 

Ss } 

6% 

7: class Point : Printable { 
8: double x; 

9: double y; 
103 
11: override void print() { 








Q 
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代码 清单 8-5 
classsub.dkh 





ye 





12:3 printlin(",." + this,x + "; Yr." + this,y); 
13: } 

14: constructor initialize (double x, double y) { 
15: 蕊 的 

于 6 this. ys 

17: } 

二 局 这 } 

区 

20: Printable printable = new Point (10, 20); 

1 


22: printable.print (); 











在 这 个 例子 中 ,定义 了 一 个 具有 print() 方法 的 接口 Printable， 并 且 


在 Point 类 中 对 其 进行 了 实现 。 








在 多 继承 的 时 候 ， 使 用 逗号 分 隔 多 个 接口 名 。 此 处 的 设计 和 C# 一 样 (其 


实 ， 除 了 没有 implements 关键 字 之 ， 其 他 的 和 Java 都 差不多 )， 





别 的 创新 。 





没有 什么 特 





但 是 ,在 Diksam 中 ， 接 口 是 不 能 继承 接口 的 。 因 为 接口 间 的 继承 通过 在 实 




















现 类 中 继承 多 个 接口 就 能 达到 一 样 的 效果 ， 所 以 这 在 现 阶段 还 不 是 必须 要 做 的 


事情 。 


8.2.5 | 编译 与 接口 





在 Diksam 中 ， 如 果 require 了 只 有 某 个 函数 签名 声明 的 .dkh 文件 ， 那 么 
也 可 以 编译 通过 。 接 下 来 ， 在 函数 执行 的 时 候 会 加 载 定义 了 其 实现 的 .dkm 文件 ， 





























并 通过 动态 编译 功能 进行 编译 。 











对 于 类 的 方法 来 说 ， 并 没有 特别 地 提供 这 种 机 制 ， 但 是 使 用 接口 也 可 以 实现 


设计 和 实现 的 分 离 。 


首先 ,在 .dkh 文件 中 实现 定义 接口 和 返回 接口 对 象 的 函数 ( 代码 清单 8-5 )。 

















: // 在 .dkh 文件 中 定义 接 
: public interface ClassSub { 








public void Przint() ; 


} 











: // 定义 实现 接口 的 返回 接口 对 象 的 函数 


: ClassSub create class sub(); 




















~]OUU 必 mwN 
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然后 ， 在 对 应 的 .dkm 文件 中 ， 定 义 实现 接口 的 类 以 及 返回 类 实例 ( 通 
过 new ) 的 函数 (实现 在 .dkh 文件 中 的 所 有 签名 声明 )。 
这 样 一 来 ， 在 调用 create class_sub() 函数 的 时 候 就 会 发 生动 态 加 载 。 
在 此 之 前 ，classsub .dknm 都 不 会 被 加 载 。 


8.2.6 | Diksam 怎么 会 设计 成 这 样 ? 


本 节 将 介绍 Diksam 的 面向 对 象 为 什么 会 设计 成 现在 这 样 。 如 果 只 想 了 解 实 
现 方法 的 人 可 以 跳 过 本 节 。 

C++ 为 我 们 提供 了 以 下 这 些 不 错 的 参考 。 

C++ 的 方法 默认 为 non virtual。 这 是 一 个 略微 提升 效率 却 牺牲 了 类 扩展 性 的 万 恶 设计 。 
在 C++ 中 创建 一 个 类 时 要 尽量 在 方法 前 面 加 上 protected virtual。 

面向 对 象 的 圣经 之 作 Object-Oritented Sofiware Construction (简称 OOSCD ) 中 
对 C++ 作 了 如 下 评价 : 
在 进行 声明 的 时 候 是 否 必须 使 用 virtual 的 意思 就 是 ,必须 要 有 明确 的 约束 策略 ( 静 
态 约束 还 是 动态 约束 )。 而 这 个 策略 违反 了 开放 / 闭锁 原则 。( 中 间 省 略 ) 
C2 ( 不 明确 标示 "virtual" 的 时 候 ， 默 认 使 用 静态 约束 ) 更 加 恶劣 ， 很 难看 出 这 种 
做 法 在 语言 设计 上 的 正当 性 。 正 如 上 面 说 到 的 ， 让 静态 约束 和 动态 约束 拥有 不 同 的 含 
义 ， 这 个 选择 本 身 就 是 错误 的 ， 在 此 基础 上 还 要 进行 默认 选择 ， 更 是 错 上 加 错 了 。 




















































































































































































































































































































在 C++ 之 后 问世 的 Java 改 成 了 默认 virtual (在 non virtual 的 时 候 要 使 
用 final )。 

然而 ， 在 Java 之 后 出 现 的 C# 中 又 改 回 了 默认 non virtual。 关 于 这 点 ， 我 
(通过 网 络 等 途径 ) 也 听 过 不 少 严厉 的 批评 ， 但 C# 的 作者 Anders Hejlsberg 作出 
了 如 下 回应 : 


There are two schools of thought about virtual methods. The academic school of 





thought says,“Everything should be virtual, because | might want to override it 
someday.” The pragmatic school of thought, which comes from building real ap— 
plications that run in the real world, says, "We’ ve got to be real careful about what 


we make virtual.” 


¢ 
S 
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yo 过 


翻译 ， 
































在 virtual 方法 的 问题 上 存在 两 派 。 学 术 派 主张 “任何 事物 都 应 该 是 virtual 的 。 因 为 
有 一 天 我 可 能 需要 重 写 它 "。 与 此 相对 ,实用 派 主 张 构建 在 真实 世界 中 运行 真实 的 应 用 ， 
他 们 认为 “在 进行 virtual 的 时 候 ， 本 来 就 应 该 引起 注意 ”。 










































































说 到 这 里 我 想起 来 ,《 OOSC》 的 作者 Bertrand Meyer 是 大 学 教授 。 

方法 的 重 写 ， 替 换 了 一 部 分 在 超 类 中 实现 的 行为 。 如 果 不 是 从 一 开始 就 决定 
了 要 替换 的 目标 方法 ， 而 是 随意 地 重 写 方法 的 话 ， 那 么 在 之 后 超 类 进行 升级 等 改 
变 时 ， 就 无 法 保证 子 类 的 正常 运行 。 总 而 言 之 ， 应 该 慎重 对 待 这 种 随便 给 别人 的 











类 打 补 丁 的 行为 。 








基于 以 上 这 些 ， 更 进一步 地 让 我 有 了 “一 般 情 况 下 ， 类 应 该 默认 为 不 可 继 


承 ”的 想法 。 


下 面 我 要 介绍 一 下 在 这 个 问题 上 “实用 派 ” 的 一 些 想 法 。 
《Effective Java 中 文 版 (第 2 版 )) 名 第 15 章 中 “要 么 专门 为 继承 而 设计 并 给 


出 说 明文 档 ， 要 么 茶 止 继承 ”说 道 ; 
这 不 仅仅 是 理论 性 的 问题 ， 如 果 不 是 








专门 为 继承 而 设计 并 给 出 相应 文档 ， 又 





















































非 final 的 具象 类 ， 一旦 修改 了 内 部 ， 就 要 承受 与 其 所 有 子 类 关联 的 地 方 都 有 可 能 


发 生 bug 的 后 果 。 

















这 个 问题 的 最 佳 解决 方案 是 ， 对 于 那些 并 非 为 了 安全 地 进行 子 类 化 而 设计 和 编写 文档 

















的 类 ， 禁 止 其 子 类 化 。 






































《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 "日 文 第 1 版 p.31 














继承 使 子 类 获得 了 父 类 里 实现 的 详 旨 
念 " [Syn86]。 子 类 的 实现 和 父 类 的 实现 




















内 容 ， 因 此 说 “继承 破坏 了 封装 性 的 概 
着 紧密 的 联系 ， 因 此 改变 父 类 的 实现 会 对 子 























类 产生 非常 强烈 的 影响 。 
( 中 间 省 略 ) 
































对 于 这 点 有 一 个 挽救 的 方法 ， 就 是 只 继承 








象 类 。 











对 于 “只 继承 抽象 类 ”这 个 方法 ， 其 实在 Diksam 中 已 经 实现 了 。 
举 个 例子 , 在 UNIX 的 经 典 GUI 工具 包 Motif 的 类 层级 中 , PushButton( 常 
被 称 为 GUI 的 按钮 ) 是 Label 的 子 类 。Label 具有 显示 一 个 字符 串 的 功能 ， 在 定 

















义 了 继承 Label 的 PushButton 时 ， 可 以 





复 用 Label 中 的 一 些 实现 。 


但 是 ， 后 来 出 现 的 Java 的 AWT 中 ，Label 和 Button 之 间 就 不 存在 继承 关 
系 了 。 并 且 , 在 Swing 中 作为 JButton、JMenuItem、JToggleButton 的 超 类 





都 引入 了 AbstractButton 抽象 类 。 
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关 
具体 来 说 就 是 MFC 
( Microsoft Foundation 
Class )o 


在 Template Method 
模式 中 经 常会 用 到 ， 为 
了 显 式 地 表现 出 “这 
里 有 需要 在 子 类 中 修 
改 的 地 方 ” 从 而 使 
protected， 但 如 
果 只 是 用 在 这 种 用 途 
上 ， 我 觉得 还 不 如 使 
publico 在 使 用 设计 
模式 的 时 候 ， 一 般 情况 
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这 样 虽然 会 减少 复 用 ， 却 让 随意 地 继承 Label ( 像 Motif ) 的 方式 成 为 了 过 
去 。 如 果 有 通用 的 部 分 ， 就 明确 地 定义 抽象 类 ， 这 种 做 法 可 以 说 是 非常 现代 化 的 
方式 。 

从 我 的 自身 经 验 来 讲 ， 从 零 开 始 设计 的 部 分 ， 我 从 来 没有 想 过 要 它 继 承 具象 
类 。 实 际 上 在 使 用 现存 的 C++ 类 库 * 时 ， 会 有 “这 个 方法 如 果 是 virtual 的 就 要 
重 写 ” 的 想法 。 这 样 一 来 ，( 对 头 文件 来 说 ) 直接 参考 源 代码 去 研究 重 写 的 时 候 ， 
会 在 不 经 意 间 陷入 程序 库 的 实现 中 。 这 与 “把 字段 写成 public” 的 想法 一 样 ， 
属于 不 健康 的 想法 。 

顺 着 这 个 思路 ， 那 么 “ 仅 子 类 可 以 访问 ”这 个 访问 修饰 符 protected 也 可 
以 不 需要 。 

至 少 在 C++、Java 和 C# 的 思路 中 ， 访 问 修饰 符 是 为 了 对 自己 〈 或 自己 的 团 
队 ) 之 外 的 开发 人 员 隐 藏 实现 而 使 用 的 〈 应 该 可 以 作为 佐证 的 是 ， 如 果 是 同一 个 
类 ， 那 么 即使 是 不 同 的 实例 ， 也 可 以 相互 引用 private 成 员 )。 如 果 是 这 样 的 
话 ， 也 就 没有 理由 减弱 子 类 的 访问 限制 了 。 但 如 果 是 自己 创建 的 子 类 的 话 ， 可 以 
在 包 范 围 内 进行 访问 (与 Java 一 样 ，Diksam 也 将 包 范 围 作为 默认 项 )。 如 果 想 要 
别人 也 可 以 创建 子 类 的 话 ， 那 就 必须 要 公开 了 *。 

本 节 虽 然 介绍 了 不 少 内 容 ， 但 仅 代 表 我 个 人 观点 。 而 且 我 一 直 认为 自由 地 决 
定 设计 方案 是 语言 作者 的 特权 ， 因 此 大 家 在 将 来 制作 属于 自己 的 编程 语言 时 ， 也 
可 以 采用 你 们 自己 认为 最 好 的 方式 。 


8.2.7 | 数组 和 字符 串 的 方法 












































































































































下 必须 要 有 设计 文档 。 
在 7.3.4 节 中 介绍 过 ， 在 Diksam book ver.0.2 中 没有 取得 数组 大 小 和 字符 串 
长 度 的 方法 ( method )。 在 引入 了 类 的 概念 后 ， 现 在 我 们 来 实现 这 个 方法 。 
要 实现 的 方法 如 表 8-1 所 示 。 
表 中 的 了 表示 数组 元 素 的 类 型 ， 也 就 是 说 ， 可 以 使 用 insert () 插入 使 用 代 
码 double[] a; 声明 的 数组 , 但 只 能 是 double 型 (这 是 当然 的 啦 )。 
表 8-1 0 - 目标 返回 值 类 型 ”| 方法 名 称 和 参数 功能 
数组 和 字符 串 的 方法 ”数组 int size() 取得 数组 的 元 素数 量 
数组 void resize(int new size) 改变 数组 的 大 小 
数组 void insert (int pos, T item) 向 数组 中 间 插 入 元 素 
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( 续 ) 
目标 返回 值 类 型 方法 名 称 和 参数 功能 
数组 void remove (int pos) 删除 数组 的 元 素 
数组 void add (T item) 向 数组 末尾 添加 元 素 
字符 串 int length () 取得 字符 串 长 度 
字符 串 string substr(int pos, int len) pos 开始 长 度 为 1en 的 



































日 由 于 在 Diksam 中 数组 和 字符 串 并 不 是 类 ， 因 此 不 能 创建 出 继承 它们 的 类 。 


8.2.8 | 检查 类 的 类 型 


Diksam 和 Java 一 样 使 用 instanceof 运算 符 。 
instanceof 运算 符 用 于 判断 某 个 实例 是 否 属于 某 个 类 
例如 ， 继 承 了 shape 的 Line 和 Circle。 





























Shape shape = new Line(); 

上 面 的 语句 给 shape 赋值 了 Line 的 实例 ， 此 时 shape instanceof 
Line 返回 真 。 当 然 ，shape instanceof Circle 返回 假 。 

但 是 ， 虽 然 shape instanceof Line 返 回 真 ， 但 是 返回 真 的 也 不 仅 
限于 Dine 的 实例 。 假 设 Dine 存在 子 类 ArrowLine， 并 且 0 实际 也 指 
向 了 ArrowLine 的 话 ，shape instanceof Line 还 是 会 返回 直 。 这 就 是 
instanceof 运算 符 “ 判 断 某 个 实例 是 否 属 于 某 个 类 ”的 含义 。 

instanceof 也 可 以 用 于 判断 实例 是 否 实现 了 某 个 接口 。obj instanceof 
Printable 如 果 为 真 ， 说 明 obj 实现 了 Printable。 


8.2.9 | 向 下 转型 


Diksam 可 以 将 类 向 下 转型 。 
Java、C# 等 语言 也 可 以 向 下 转型 ， 像 下 面 这 段 代 码 。 


Shape shape = new Line(); 

































































Line line = (Line) shape; 


只 是 ， 前 置 这 种 转换 运算 符 的 书写 方式 ， 在 成 员 、 数 组 、 方 法 调用 堆 琶 了 很 
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多 层 的 时 候 ， 如 果 要 进行 转换 ， 视 线 必须 要 回 到 左边 。 另 外 ， 在 转型 后 如 果 要 再 
次 引用 其 转型 后 的 结果 的 话 ， 外 面 必 须要 加 上 括号 。 


/7/ 取得 [Biyo.foo[i] .bar.fugalj] .getObj ()] 的 对 象 ， 

// 向 下 转型 为 Bazz， 

// 并 取出 其 成 员 hoge。 

nforeie leeie = (Ee) oe Eee cos ,See sees (0) olneeles 


C# 中 存在 后 置 转型 运算 符 as ， 但 是 由 于 优先 级 低 ， 因 此 还 是 要 使 用 括号 。 
由 于 这 点 不 是 很 方便 ， 因 此 在 Diksam 中 使 用 了 后 置 的 转型 运算 符 。 书 写 方 
式 为 : : 类 型 名 : >。 上面 的 例子 在 Diksam 中 写成 了 如 下 代码 。 
Hegqemhede eontooly a Eel to lo node 


男 外 ， 也 可 以 实现 从 接口 向 下 转型 到 接口 。 下 面 的 例子 中 ，Hoge 在 实现 

































































% 





















































因此 ， 在 例如 Java 的 ”了 Serializable 的 情况 下 可 以 成 功 转型 。 

编程 语言 设计 中 ， 不 叫 

作 “ 向 下 转换 ”而 叫 作 Printable p = new Hoge(); 

“缩小 转换 ”( narrowing Serializable s = p::Serializable:>; 

cast )。 但 是 鉴于 大 家 比 

各 人 庆 “T 失 和 这 种 做法 在 类 的 继承 关系 上 并 不 存在 “向 下 ”转换 。 而 且 这 个 例子 叫 作 “ 向 
因此 Diksam 还 是 采 

了 这 个 说 法 。 下 转换 ”是 否 贴切 也 是 个 问题 *。 














8.3 关于 类 的 实现 一 一 继承 和 多 态 


实现 类 最 应 该 关心 的 不 就 是 继承 和 多 态 的 实现 方法 吗 ? 
这 么 想 ， 至 少 我 是 。 

因此 ， 先 把 其 他 细节 的 话题 放 在 一 边 ， 本 章 我 们 就 来 介绍 一 下 Diksam 中 继 
承 和 多 态 的 实现 。 


区 下 字段 的 内 存 布局 


首先 要 考虑 的 是 ， 在 继承 了 其 他 类 的 情况 下 ， 字 上 段 在 内 存 中 的 布局 。 

典型 的 例子 就 是 ， 考 虑 创建 类 型 Line 和 circle， 并 继承 表示 二 维 的 “图 形 ” 
的 类 shape。Shape 中 保存 着 “颜色 ”等 图 形 的 通用 属性 。 在 Line 和 circle 中 ， 
也 保存 着 表示 各 自 图 形 的 必 备 信息 。 图 8-4 中 记载 了 这 些 类 ( 图 中 对 方法 也 进行 














不 管 别人 是 不 是 
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“图 形 ” 的 继承 结构 




















Set eolo (eoLor:int) 


Qraw() 


start x:double||center x:double 


start y:double||center y:double 


end x:double radius:double 


end y:double 




















图 8-4 中 ，Shape 中 保存 了 用 int 型 的 “颜色 编码 ”，Line 中 保存 了 直线 
的 起 点 和 终点 。 我 想 聪 明 的 读者 一 眼 就 能 看 明白 ，start x、start_y 是 起 点 坐 
标 ,end x、end y 是 终点 坐标 , Circle 的 center x、cengter y 是 原点 坐 














标 ，radius 是 半径 。 


此 时 ， 字 段 数据 的 保存 方式 如 网 8-5 所 示 ， 超 类 字段 的 后 面 紧 跟着 子 类 中 增 


加 的 字段 。 
图 85 Line 的 字段 Circle 的 字段 
字段 的 存储 方式 shape 的 部 分 《 证 


ircle 增加 的 党 
Line 增加 的 部 分 Circle 增加 的 部 分 





使 用 这 种 存储 方式 的 好 处 在 于 ， 在 引用 Shape 类 型 变量 shape 的 字 
段 shape .color 时 ， 具体 的 对 象 实 际 上 无 论 是 Line 也 好 ，Circle 也 好 ， 它 
们 在 引用 color 时 的 偏 移 量 都 是 相同 的 。 

如 果 出 现 了 多 继承 的 话 情况 就 变 得 复杂 了 ， 但 是 由 于 Diksam 的 类 只 能 单 继 
承 ， 因 此 字段 的 储存 也 可 以 使 用 这 种 方式 实现 。 
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这 里 也 不 一 定 非 要 是 C 
语言 中 所 说 的 指针 ( 内 
存 地 址 )。 在 Diksam 中 
就 是 DVM Virtual- 
Machine 中 保存 着 的 
Function 表 的 下 标 。 














图 8-6 
在 单 继 承 的 情况 下 的 
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多 态 一 一 以 单 继承 为 前 提 


继承 ， 不 仅 要 能 引用 字段 ， 还 必须 要 实现 多 态 。 回 到 图 84，Shape 中 定义 
了 get color() 、set color() 和 draw() 三 个 方法 ,其 中 draw() 是 abstract 方 
法 ,并 且 会 在 Line 和 Circle 中 重 写 。 因 此 ， 只 需 编 写 代码 就 可 以 了 。 











shape.dqraw() ; 





此 时 shape 不 论 是 Line 还 是 Circle， 都 会 执行 qzraw() 方法 。 

限制 为 单 继承 的 好 处 就 在 于 容易 实现 。 只 需要 让 类 的 实例 中 保存 着 指向 方 
法 实现 的 指针 * 数组 即 可 。 这 里 说 的 数组 忍 怕 是 原来 的 C++ 用 语 ， 一 般 被 称 为 
vtable ( virtual method table 的 简称 )。 

vtable 与 类 相对 存在 ， 同 一 类 的 实例 指向 同一 个 vtable， 并 在 new 的 时 候 将 
vtable 传递 给 实例 。 由 于 shape 包含 了 三 个 方法 ， 因 此 我 们 通过 下 面 的 列表 来 调 
用 shape 的 方法 。 

e get_color() 在 vtable 上 的 下 标 为 0 

@ set color() 在 vtable 上 的 下 标 为 1 

e draw() 在 vtable 上 的 下 标 为 2 

原则 是 子 类 的 vtable 首先 要 具有 和 超 类 同样 的 内 容 。 但 在 方法 重 写 的 情况 下 
会 替换 原 有 的 位 置 ， 而 在 子 类 中 增加 方法 的 时 候 ， 子 类 的 vtable 也 会 变 得 比 超 类 
的 长 (图 8-6 )。 


Line 的 实例 


























Shape 的 vtable 









同样 的 内 容 

















Pe 重 写 的 时 候 会 替换 
.” 原 有 的 位 置 
Circle 的 vtable 
en 如 果 在 子 类 中 增加 方法 ， 





vtable 也 会 随 之 扩展 
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代码 清单 8-6 
C++ 的 指针 转换 


sa 由 





使 用 这 个 处 理 方式 ， 缺点 在 于 每 次 调用 方法 时 都 要 引用 vtable， 所 以 多 少 会 
有 些 延迟 。 而 优点 在 于 不 论 类 的 继承 关系 有 多 深 , 或 者 类 中 的 方法 有 多 多 , 方法 
调用 的 开销 都 是 基本 相同 的 。 

C++ 只 要 在 不 使 用 多 继承 的 时 候 ， 通 
但 C 语言 就 不 可 能 用 这 个 处 理 方式 实现 
Toolkit 等 )。 

Diksam 的 类 只 能 单 继承 ， 但 是 可 以 多 继承 接口 。 因 此 ， 对 于 字段 来 说 是 以 单 
继承 为 前 提 的 ， 但 是 对 于 方法 的 调用 来 说 ， 就 不 得 不 考虑 多 继承 的 情况 。 在 多 继 
承 时 ，vtable 的 下 标 就 失去 了 唯一 性 ， 也 就 无 法 用 这 种 处 理 方式 来 应 对 了 。 


8.3.3 | 多 继承 一 一 C++ 


我 们 以 C++ 为 例 ， 看 一 下 它 是 如 何 实现 多 继承 的 。 细节 的 地 方 因 处 理 器 而 
异 ， 比 如 有 继承 了 类 A 和 B 的 类 C， 首 先 A 和 C 如 果 是 “主要 继承 关系 ”的 话 ， 
那么 不 论 是 字段 还 是 方法 ， 都 可 以 使 用 和 单 继承 时 相同 的 处 理 方式 ， 但 问题 在 于 
C 的 对 象 在 被 当做 B 引用 (将 C 向 上 转型 为 B ) 的 时 候 。C++ 在 此 时 会 将 指针 本 
身 转 换 为 B 的 vtable 对 应 的 地 址 。 

这 个 现象 可 以 在 代码 清单 8-6 中 得 到 验证 。 

















常 都 是 用 这 种 处 理 方式 实现 继承 的 。 
继承 和 多 态 了 (GTK+、X-Window 














ee 



































1: #include <stdio.h> 

3: class A { 

4: public: 

5 int a; 

6: virtual void a method() {} 
是 }; 

[3 

9: class B { 

103 public: 

11: 二 机 在， By 

12: virtual void b method() {} 
13s }; 

14: 


15: // 继承 了 类 A 和 类 B 的 类 Cc 
16: class C : public A, public B { 











7 public: 
18: int ; 
19: void a method() {} 
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20 : void b method() {} 

性 }; 

忌 忆 六 

23: int main(voidy) 

24: { 

25: C xc = new C(); 

6 

27: // 显示 new 过 的 变量 c 的 指针 

28 : printf ("eG., .Sp\n", b); 

29: 

30: // 将 其 赋值 到 Bx 型 的 变量 中 ， 并 显示 
3 B. *b. = G; 

32: printf ("Ge as. Be SBNn", b); 

六 全 

34 : // 显示 A，B，C 各 类 中 的 成 员 变 量 ( 字段 ) 的 地 址 
35: printf ("&A->a..%$p\n", &c->a); 
36: printf ("&B->b..%p\n", &c->b); 
37: printf ("&C->d..%p\n", &c->c); 
383 

39s return 0; 

40: } 














在 我 的 环境 中 ， 输 出 结果 如 下 (我 的 环境 int 和 指针 都 是 4 个 字 节 )。 


CcC..0x804a008 
C as B..0xX804a010 


&A->a. .0x804a00c 
&B->b. .0x804a014 
&C->d. .0x804a018 


内 存 结构 如 图 8-7 所 示 。 在 将 指针 赋值 给 B* 型 的 变量 时 ， 指 针 所 指向 的 地 
址 发 生 了 改变 。 可 以 确认 在 A 的 字段 a 和 B 的 字段 b 之 间 存 在 着 B 的 vtable 占用 的 
内 存 空间 。 

















c 作为 A 或 者 C 被 引用 时 的 vtable 


引用 时 的 指针 —/ 
c 作为 B 被 引用 时 的 vtable 
被 向 上 转型 为 B 的 时 Puen @— 
候 指 针 指向 了 这 里 ”一 
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在 Ct+ 中， 只 有 这 样 的 (自动 的 ) 转换 才 可 能 改变 指针 的 值 ，C 像 是 通 
过 voidx 保存 了 对 象 ， 给 人 的 感觉 非常 不 好 一 一 其 实 我 也 有 过 这 样 的 经 历 ， 当 
然 这 是 题 外 话 。 

如 果 在 向 上 转型 (通常 向 上 转型 是 自动 进行 的 ) 为 B 的 时 候 移动 指针 ， 不 但 可 
以 用 普通 的 方式 引用 到 B 的 字段 ， 由 于 vtable 也 是 各 自 保 存 的 ， 因 此 就 实现 了 多 态 。 

只 是 在 Diksam 中 ， 如 果 移动 了 指针 的 话 会 给 GC 的 实现 带 来 困难 。 现 在 的 
Diksam， 指 向 堆 的 指针 类 型 是 DVM_object* ， 但 如 果 像 C++ 一 样 移动 指针 的 话 ， 
就 会 由 于 没有 指向 最 初 的 DVM_object 而 给 GC 的 标记 阶段 造成 麻烦 。 另 外 ， 由 
于 Diksam 不 能 多 继承 字段 ， 如 果 使 用 C++ 的 处 理 方式 就 显得 有 点 过 度 设 计 了 。 


8.3.4 | Diksam 的 多 继承 


在 Diksam 中 采用 了 如 下 的 处 理 方式 。 


e@ 不 是 在 对 象 的 开头 部 分 保存 vtable， 而 是 在 引用 了 对 象 的 值 中 。 这 样 既 保存 了 指向 
对 象 本 身 的 引用 ， 同 时 也 保存 了 指向 vtable 的 引用 。 

e@ 在 向 上 或 者 是 向 下 转型 时 ， 替 换 引 用 值 中 的 vtable 就 可 以 了 。 

在 Diksam 中 ， 值 被 保存 在 DVM object 联合 体 中 ， 并 且 使 用 DVM_ 
ObjectRef 结构 体 引用 其 中 的 对 象 。 


typedef union { 






























































































































































int int value; /* 值 为 整数 时 */ 
double double value; /* 值 为 实数 时 */ 
DVM ObjectRef object; /* 值 为 对 象 时 */ 


} DVM Value; 
DVM_ObjectRef 定义 如 下 。 


typedef struct { 
DVM VTable *v table; /* vtable 的 指针 */ 
DVOBIee te dacay /* 数据 本 身 */ 

} DVM ObjectRef; 


在 8.3.2 节 中 介绍 了 在 Diksam 中 类 继承 的 处 理 方式 一 一 使 用 vtable 实现 多 
态 ， 并 且 在 转型 为 接口 的 时 候 蔡 换 引用 值 中 的 vtable ( DVM_ObjectRef 的 Vv_ 
table 成 员 )。 

当然 ， 基 于 上 面 的 处 理 方式 也 会 出 现 对 象 不 知道 自己 原本 是 什么 类 型 的 情 
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况 ， 因 此 在 vtable 中 保存 了 指向 对 象 原本 类 型 的 指针 。 


struct DVM VTable tag { 
ExecClass ”*exec class; /* 指向 类 的 指针 */ 
int table size; /* vtable 的 元 素数 */ 
Wealoleneenm Seeley We 





J)? 
其 中 叫 作 Execclass 的 类 型 就 是 保存 类 在 运行 时 信息 的 类 型 ， 每 个 类 只 对 
应 一 个 , 在 DVM_VirtualMachine 中 以 数组 的 方式 保存 (这 个 数组 的 创建 时 机 























typedef struct ExecClass tag { 


DVM Class evmilelassey 
ExecutableEntry *executable; 
char Pacekoagesnamer 
char mamen 

DVM_ Boolean a rene mney 
sae celesenmdexs 


SEruct ExecClassntag superelags, 
DVM VTable “cagsmeable, 


ne interface count; -BEY 
Seuctepeeeoles ees imeemnEace, 一 








DVM VTable Eneeneiaccnvt oles 
sbi Emenee OU 
DVMMET CSB lel (woep 


} ExecClass; 


如 图 8-8 所 示 (在 图 中 省 略 了 接口 的 ExecClass )。 


DVM Value VTable vtable 本 身 











Diksam 的 多 继承 








we L| | | 
指向 vtable 
的 指针 和 指向 
数据 的 指针 ExecClass 
三 OOOE 接口 vtable 


的 数组 

类 实现 了 多 少 ， 就 
要 保存 多 少 vtable。 在 
向 上 转型 的 时 候 将 这 个 
数组 的 下 标 作为 操作 数 ， 


于 替换 DVM Value 中 











字段 的 数据 






































CR 


入 vtable 
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于 Java 的 class 文件 

















如 此 一 来 ， 在 向 上 转型 的 时 候 ， 要 找到 相应 的 vtable 并 替换 DVM_Value 中 
的 (DVM_ObjectRef 的 )v_table 成 员 。 在 使 用 up_cast 指令 (将 在 后 面 的 
章节 介绍 ) 时 ， 这 个 接口 的 数组 下 标 将 会 作为 操作 数 进 行 传递 。 
补充 知识 ”无 类 型 语言 中 的 继承 
作为 像 Diksam 和 C++ 这样 的 静态 类 型 的 语言 ， 不 论 是 引用 字段 的 时 候 还 是 调 
方法 的 时 候 ， 都 能 够 一 下 子 引 用 到 在 编译 时 * 就 已 经 决定 的 索引 值 。 多 继承 的 情况 见 


























































































































成 员 名 字 是 字符 串 ， 








大 











此 发 生 在 加 载 /链接 时 。 


x 


当然 ，null 是 个 例外 。 


yen 

















加 复杂 ， 但 不 论 怎样 都 可 以 使 用 “固定 的 开销 ”引用 到 字段 或 者 方法 ， 这 点 是 没有 变 
化 的 。 
与 此 相对 ， 在 像 Ruby 这 样 没 有 变量 类 型 的 语言 中 ，a. hoge 语句 ( 单纯 的 实现 ) 
于 在 编译 时 并 不 知道 a 的 类 型 ， 没 有 办 法 一 下 子 就 访问 到 索引 什 此 必须 要 利用 成 
员 名 字 进 行 搜 索 。 也 就 是 说 ， 根 据 成 员 数 量 不 同 ， 检 索 需 要 的 时 间 也 不 同 ， 所 以 引用 成 
员 时 就 不 是 “固定 的 开销 ”了 。 

尽管 如 此 ， 如 果 使 用 二 分 法 检索 ( 假如 有 1000 个 成 员 的 话 ， 用 10 次 以 内 的 循环 
就 可 以 完成 ) 的 话 ， 也 可 以 看 作 是 “固定 的 开销 "。 


8.3.5 | 重 写 的 条 件 


重 写 是 在 调用 超 类 的 方法 时 ， 实 际 被 调用 的 是 (也许 是 ) 子 类 的 方法 。 从 调 
用 者 看 上 去 好 像 调 用 的 是 超 类 的 方法 ， 但 是 实际 上 调用 的 却 是 子 类 的 方法 ， 而 这 
个 子 类 的 方法 说 不 定 会 让 调用 者 吓 一 跳 。 

例如 ， 子 类 方法 的 返回 值 类 型 要 比 超 类 的 “ 窗 ”( 被 称 为 共 变 ，covariant )。 
当 超 类 有 以 下 方法 时 ， 如 果子 类 要 对 其 进行 重 写 的 话 ， 子 类 的 getShape () 方 
法 不 能 返回 Shape 以 外 的 类 型 *。 
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Shape getShape () ; 
子 类 的 返回 类 型 只 要 是 比 超 类 “和 军 ” 就 算 合法 。 也 就 是 说 ， 像 下 面 这 样 
将 Shape 的 子 类 作为 返回 值 的 重 写 是 合法 的 。 
// circle 如 果 是 Shape 的 子 类 的 话 ， 这 个 方法 就 是 合法 的 
Circle getShape() ; 
这 种 情况 下 ， 子 类 的 getShape () 方法 一 定 只 能 返回 Circle 类 型 。 但 是 在 调 
用 者 ， 期 待 的 是 比 Circle 更 “ 宽 ” 的 Shape 类 型 ， 这 是 没有 问题 的 。 相 反 ， 如 果 
期 待 的 是 Cizcle, 返 回 的 却 是 其 他 Shape( Line 或 者 Rectangle ) 的 话 , 真 的 
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会 被 吓 一 跳 吧 。 

像 这 样 将 返回 值 共 变 的 好 处 有 很 多 ， 比 如 限制 了 Java 中 object 类 
的 clone () 方法 的 返回 值 ， 以 减少 不 必要 的 转型 。Java 从 JDK1.5 开始 具备 这 个 
功能 。 

在 Diksam 中 ， 参 数 的 情况 却 是 相反 的 。 子 类 方法 的 参数 类 型 要 比 超 类 的 
“ 宽 ”( 被 称 为 反 变 ，contravariant )。 在 超 类 中 有 如 下 方法 时 : 

void drawSshape (Circle circle); 

在 子 类 中 可 以 合法 地 定义 如 下 方法 : 

void drawShape (Shape shape); 

子 类 的 drawshape () 能 接受 的 参数 ， 超 类 的 drawshape () 应 该 也 能 接 
受 ， 这 样 的 话 调用 者 就 不 会 被 吓 一 跳 了 。 

至 于 访问 修饰 符 ， 子 类 的 方法 必须 要 比 超 类 的 “宽松 ”"。public 的 方法 不 能 
被 重 写 为 private 的 ， 反之 则 合法 。 

9.2.3 节 会 为 Diksam 引入 异 常 的 概念 ，Diksam 的 异常 处 理 属于 Java 风格 的 
异常 检查 〈 把 方法 中 可 能 抛 出 的 异常 全 部 用 throws 列 出 ， 并 由 编译 需 检 查 )。 
这 种 情况 下 ， 子 类 的 方法 不 能 比 超 类 抛 出 更 多 的 异常 。 

让 我 们 再 说 回 参数 ，Diksam 在 编译 器 进行 静态 检查 时 人 允许 反 变 是 非常 方便 的 
设计 ， 但 是 在 实际 应 用 中 ， 有 时 也 需要 同时 允许 共 变 的 存在 。 假 设 Shape 有 设 
置 样式 的 setStyle (Style style) 方法 ,Line 和 Circle 需要 的 样式 也 应 该 
是 根据 不 同 图 形 定制 的 Style 的 子 类 一 一 但 是 ， 如 果实 现 了 这 项 功能 的 话 ， 一 
定 要 在 调用 Shape 的 setStyle () 时 进行 一 些 运行 时 检查 。 

相似 的 话题 在 7.3.2 节 的 补充 知识 中 已 经 作 过 介绍 ， 在 Java 中 假设 存在 超 
类 Shape 和 子 类 circle， 那 么 Circle 的 数组 会 自动 成 为 shape 数组 的 子 类 。 
这 个 设计 可 能 会 引发 叫 作 ArrayStoreException 的 运行 时 错误 。 

如 果 将 shape [] 和 circle[] 看 作 是 类 的 话 ， 就 应 该 能 看 出 来 它们 是 共 变 
参数 的 一 种 。 


// 将 “Shape 数组 ”看 作 是 类 
class ShapeArray { 
// 取得 数组 元 素 的 方法 
Shape get (int index)，; 
// 设置 数组 元 素 的 方法 


void set(int index, Shape shape); 
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} 


// CircleArray 是 ShapeArray 的 子 类 

class CircleArray extends ShapeArray { 
// 返回 值 的 共 变 一 没 问 题 
Circle get (int index); 
// 参数 类 型 的 共 变 一 必须 进行 运行 时 检查 
TGS 有人 ES 


























< 关于 类 的 实现 





yen 


本 节 将 要 介绍 的 是 在 类 的 实现 中 除了 继承 和 多 态 的 部 分 。 


8.4.1 | 语法 规则 


Diksam 在 声明 变量 的 时 候 和 Java 相同 ， 形 式 如 下 所 述 : 
类 型 变量 名 ; 
我 们 在 6.1.5 节 中 曾 提 到 ， 有 些 语言 是 将 类 型 写 在 后 面 的 。 


// 以 Actionscript 为 例 
var a:int; 


将 类 型 写 在 后 面 的 语法 结构 在 制作 语法 分 析 絮 时 会 非常 轻松 ,但 是 在 Diksam 
中 ,使 用 了 C 和 Java 程序 员 习 惯 的 语法 结构 ， 即 将 类 型 写 在 前 面 一 一 这 么 做 了 才 
知道 ， 这 是 一 条 坎坷 的 路 。 

如 果 以 “类 型 变量 名 ; ”的 语法 进行 声明 ， 在 一 开始 就 能 得 到 “类 型 *， 从 
而 一 下 子 就 可 以 知道 这 是 一 条 声明 语句 ， 但 也 只 有 int 和 double 可 以 作为 保留 
字 ，Point 之 类 的 类 名 字 就 不 能 够 成 为 保留 字 了 。 因 此 ， 只 看 这 个 是 不 能 知道 类 
名 字 的 。yacc 虽然 会 预 读 一 个 符号 , 但 是 ,例如 下 面 这 样 的 数组 声明 ， 

























































































Ponte me 
即使 是 预 谈 了 Point 后 面 “[” 也 不 能 搞 清 以 下 两 点 : 


是 数组 型 变量 Point 要 通过 [] 引用 元 素 ? 
还 是 要 声明 Point 类 的 数组 ? 
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在 C 中 ， 要 想 使 用 类 型 Point， 就 必须 要 在 使 用 的 地 方 前 面 声明 这 个 类 型 。 
在 这 种 语言 中 使 用 的 处 理 方式 是 : 在 声明 的 时 候 把 类 型 由 解析 需 传 递 给 词法 分 析 
器 ， 词 法 分 析 需 随后 把 它 登 记 为 标识 符 ， 之 后 的 Point 就 会 被 当做 类 型 名 称 来 处 
理 。 但 是 ， 作 为 一 门 当 下 的 编程 语言 来 说 似乎 不 太 雅 致 。 在 C 语言 中 ， 为 了 表现 
诸如 Husband 引用 了 Wife, Wife 又 引用 了 Huspand 这 样 的 相互 引用 , 不 得 不 
使 用 “预先 声明 结构 体 标签 ”的 怪异 方法 。 

因此 ，Diksam 的 语法 规则 如 下 : 



































dec laratlondetaeemene 


: type specifier IDENTIFIER SEMICOLON +E 这 





(Ea Eoin ee 
: basic type specifier * pba on apy 
| array type specifier 


| class type specifier 表示 类 名 


El (ovo Co ie ee 
8 IoB\ele (eva cose me Ra 
| IDENTIFIER LB RB 
| array type specifier LB RB 





CLE ‘Woe Coole 
; IDENTIFITIER 


看 了 上 面 这 段 代 码 ， 可 能 有 人 会 想 了 : 


等 等 。 刚 才 不 是 说 即使 预 读 了 Point 后 面 的 一 个 符号 也 搞 不 清楚 它 到 底 是 变量 名 还 
是 类 名 吗 ? 但 是 在 这 个 规则 中 不 是 很 明显 地 告诉 你 如 果 只 个 IDENTIFIER 的 话 


就 是 class type specifier 吗 ? 


































































































这 个 语法 规则 的 重点 在 于 引入 了 array_type_specifier。 如 7.2.1 节 中 
所 述 ， 在 引入 类 之 前 ， 数 组 声明 语法 如 下 : 


(De HE 








ae oore feo/eceule le 
| type specifier LB RB 








在 引信 了 类 之 后 ， 我 认为 与 pasic _ type _specifier 一 起 处 理会 更 好 。 
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yen 





Eee 
acne yenspe ee 
| IDENTIFIER 增加 了 这 行 代 码 





| type specifier LB RB 





但 是 ， 还 是 像 前 面 说 的 ， 在 预 读 了 IDENTIFIER 后 的 “[” 后 ，yacc 就 会 因 
为 不 知道 是 把 它 当 做 要 引用 数组 元 素 继续 shif 好 ,还 是 当做 type_specifier 进 
行 reduce 好 而 发 生 错 误 。 顺 带 提 一 下 ， 引 用 数组 元 素 的 规则 如 下 : 


primary no new array 











primary noMnewarray DB expresslon Re 
| IDENTIFIER LB expression RB 


不 过 ,引入 了 array_type specifier 后 ， 即 使 预 读 到 了 “[” 也 不 会 
进行 归 约 ， 因 而 也 不 会 进行 归 约 / 归 约 冲突 和 移 进 / 归 约 冲突 。 当 然 ， 现 在 还 是 
搞 不 清楚 到 底 是 在 array_type_ specifier 中 ， 还 是 在 primary no new_ 
array 中 。 在 看 到 了 代码 清单 2-5 的 y.output 的 后 半 部 分 中 一 并 记载 了 多 个 规则 
就 能 明白 ，yacce 的 状态 可 以 跨越 多 个 规则 ， 并 不 会 引发 问题 。 


























编译 时 的 数据 结构 





函数 在 编译 时 被 保存 在 FunctionDefinition 结构 体 中 ， 人 然后 被 复制 
到 DVM_Executable 中 的 DVM_Function 结构 体 。 类 保存 在 编译 时 的 数据 类 
型 ClassDefinition 和 DVM Executable 的 DVM Class 中 。 

对 于 从 开头 一 直 读 到 这 里 的 读者 ， 我 想 就 没有 必要 太 过 详细 地 介绍 了 ， 还 是 
一 笔 带 过 吧 。 

首先 是 编译 时 的 数据 结构 ClassDefinition。 


< 









































struct ClassDefinition tag { 
BVMIBeOolLean Ts Iaostracte, 
BVMIACccessModifier accessPmMOodifier, 
Vaeloss ormmtenmEae elas or mee er 
PackageName *package name; 
char *name; 
ExtendsList *extends; Mf ix 之 前 的 临时 数据 结构 





ClassDe Em lon ecua 





PoEendsnnste neertacenmse, 
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MemberDeclaration *member; 成 员 | 


le Jlnve valbiiloreep 
Struet EelsDeEmtionnEag ee 





这 个 结构 体 中 值得 注意 的 地 方 是 ， 成 员 extends 是 一 个 在 create.c 中 被 构 
建 后 ， 又 在 fix_tree.c 中 被 抛弃 的 临时 数据 结构 。 在 Diksam 中 ， 继 承 类 和 接口 
时 ,没有 使 用 Java 的 extends 和 implements 风格 ， 而 是 使 用 了 C++ 和 C# 的 
冒号 ， 因此 (一 开始 ) 无 法 区 分 类 和 接口 。 这 里 先 姑且 加 入 一 个 extends 成 
员 ， 之 后 将 在 fix_tree.c 中 分 为 super_class 和 interface list (fix 
extends () 函数 )。 
member 保存 了 类 的 成 员 。 类 成 员 的 字段 和 方法 以 联合 体 的 形式 被 保存 
在 MemberDeclaration 结构 体 中 。 

















struct MemberDeclaration tag { 

MemberKind kind; 

DVM AccessModifier access modifier; 

union { 
MethodMember method; 
piedladMemeer Ea 

ua 

mle J bve maivinleaep 

Sesueeevember neemnaee ne 


后 
先 看 一 下 字段 的 定义 。 


typedef struct { 
Sha *name; 





TypeSpecifier *type; 
ene Fareede 
} FieldMember; 


name 和 type 表示 字段 的 名 称 和 类 型 。 

这 里 要 稍稍 介绍 一 下 field_index。 在 DVM 中 , 各 个 对 象 的 字段 的 数据 都 
以 DVM_Value 数组 的 形式 保存 。 这 里 的 fieldq_inqex 就 是 这 个 数组 的 下 标 ， 
在 fix tree.c 中 进行 设置 。 

继承 类 的 时 候 ， 超 类 的 字段 会 由 子 类 继续 持 有 (如 图 8-5 )。MemberDecla- 
ration 结构 体 的 列表 只 含有 当前 类 的 成 员 ， 并 不 包含 超 类 的 成 员 , 但 fiela 
index 却 和 超 类 的 字段 含有 的 通用 的 编号 。 

在 Diksam 中 就 是 像 这 样 ， 在 编译 时 指定 字段 索引 值 。 这 是 因为 Diksam 中 并 








= 
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没有 相当 于 Java 的 class 文件 这 样 的 产 出 物 。 如 果 字 节 码 保存 在 文件 中 的 话 ， 类 
中 的 字段 增加 ， 索 引 值 也 可 以 在 文件 中 随 之 增加 ， 但 是 却 做 不 到 上 面 的 方法 。 在 
Java 的 字 节 码 中 指定 的 并 不 是 字段 的 索引 值 ， 而 是 字段 的 名 称 。 

接 下 来 是 方法 。 


typedef struct { 








DVM Boolean TcemsErucEen 
DVM Boolean USDs eraet, 
DVM Boolean Tua 
DVM Boolean Ove le 


pumetaonnDetimt on Eunmetlonader milion 
站 methnocomm ale, 
} MethodMember; 


首先 method index 和 field index 一 样 ,是 一 个 包含 了 超 类 方法 的 通用 
编号 。 但 是 ， 在 实现 了 接口 方法 的 时 候 ， 这 个 方法 的 methogd index 只 在 接口 
之 间 通 用 。 换 名 话说 ， 它 就 是 vtable 的 下 标 ( 如 图 8-8 )。 

男 外 ， 如 代码 所 见 ，MethodMember 中 包含 了 指向 FunctionDefinition 
的 指针 。 就 是 说 ， 对 于 Diksam 来 说 ,方法 也 不 过 就 是 函数 ( 稍 有 不 同 )， 它 被 注 
册 在 FunctionDefinition 中 的 同时 也 会 创建 DVM_Function。 

FunctionDefinition 中 增加 了 从 方法 能 够 追溯 到 类 的 ClassDefinition 
的 指针 。 如 果 这 个 成 员 为 NULL 的 话 ， 就 说 明 它 不 是 方法 而 只 是 普通 的 函数 。 


struct FunctionDefinition tag { 









































. .前 面 省 略 : .. 
lasspetmitloneelasder mit none 指向 类 的 指针 
.. .后面 省 略 .…. 

















8.4.3 | DVM_Executable 中 的 数据 结构 


编译 完成 后 就 要 生成 DVM_Executable 了 ， 这 里 使 用 了 DVM_Class 结构 
体 来 保存 DVM_Executable 中 的 类 。 
DVM_Class 在 DVM_Executable 中 以 下 面 这 种 可 变 长 数组 的 形式 保存 。 
struct DVM Executable tag { 


- 前 面 省 略 . . . 
oe culassEeoume, 
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DVM Class eassEEdefarneEaeT 
. 后 面 省 略 . . - 























8 
DVM_Class 结构 体 的 定义 如 下 所 示 。 


typedef struct { 





DVM Boolean a le Seale Ee 

DVM AccessModifier SeccesssgmedafneT 
DVM ClassorIntezface CassogenmEeiaacey 
nan *package name; 
char *name; 

DVM_ Boolean is implemented; 
DVMIC Tease Tident Een “SuperaclLass 

5 后 eenmEaeseeoume, 
DVMIC Lass ldent Edler nmentac en 

mm 蕊 ESEOESCUm 

DVM Field el 

Tritt meenecmeeume, 
DVM Method Smeetheoe, 


} DVM Class; 

上 面 的 代码 中 出 现 了 DVM_classIdentifier, 它 是 由 包 名 和 类 名 组 成 的 类 
型 。 这 个 类 型 可 以 保存 超 类 和 (实现 了 的 ) 接口 。 

字段 和 方法 都 是 以 可 变 长 数组 的 方式 保存 的 。DVM_Class 中 保存 的 只 有 当 
前 类 中 的 定义 ， 并 不 包含 超 类 的 部 分 。 

保存 字段 的 DVM_Field 的 定义 如 下 。 其 中 成 员 所 表示 的 含义 都 显而易见 。 


typedef struct { 

















DVM AccessModifier eeesegmedaiharet 
char *name; 
mMMETY DSS Doe Eve 
} DVM Field; 
Sd 日 、 
方法 也 是 一 样 。 


typedef struct { 
DVM AccessModifier access modifier; 


DVM Boolean a ale Sreele te 
DVM Boolean Sv ta 

DVM Boolean Me ey 
Emma mamem 


} DVM Method; 
并 且 , 方法 “差不多 ”是 普通 的 函数 ， 只 是 在 动作 上 有 细微 的 不 同 ， 因 此 
在 DVM_Function 中 保存 了 它 是 不 是 方法 的 标识 符 ( 下面 的 is_method )。 














已 


二 
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typedef struct { 
DVMET YeSBee lien *type; 


Shans *package name; 

char *name; 

nt Bearanme teraeouml, 

DVM LocalVariable wearmameElen 

DVM Boolean mlemneneedy 

DVM_ Boolean is method; 增加 了 这 个 成 员 
司 后 面 省 政情 二 二 


























DVRNEERSERTCRE 
方法 的 孔 数 名 以 类 名 # 方 法 名 的 方式 保存 在 DVM_Function 的 name 成 员 
中 。 例 如 Point 类 的 print () 方法 ,在 DVM_Executable 的 时 候 也 可 以 看 作 
是 名 称 为 Point#print、is_method 为 true 的 普通 函数 。 当 然 ， 解 析 器 是 不 
允许 孔 数 名 中 包含 # 的 ， 因 此 ， 使 用 者 即使 自己 写 了 名 为 Point#print () 的 函 
数 ， 也 不 能 在 自己 的 程序 中 通过 Point#print () 的 方式 调用 。 


8.4.4 | 与 类 有 关 的 指令 


随 着 引入 了 类 的 概念 ，DVM 中 也 增加 了 相关 的 指令 ， 如 表 8-2 所 示 。 下 面 
的 object 型 为 字符 串 、 数 组 、 类 对 象 的 总 称 (在 表 7-1 中 为 字符 串 和 数组 的 总 
称 ， 这 次 增加 了 类 的 对 象 )。 





























随 着 引入 类 而 增加 的 指令 


指令 操作 数 类 型 含义 栈 动作 





， 根据 操作 数 ( 即 索 引 值 ) 取得 栈 项 对 象 , 
pusli field int short ; [object]—>[int] 
的 属性 ( int 型 ) 值 ， 并 将 其 入 栈 
































; 根据 操作 数 ( 即 索 引 值 ) 取得 栈 项 对 象 , 
push field double short [object]>[double] 
的 属性 ( double 型 ) 值 ， 并 将 其 入 栈 





























， , 根据 操作 数 ( 即 索 引 值 ) 取得 栈 项 对 象 , | 
push field object short > [object]—>[object] 
加 一 为 属性 ( object 型 ) 值 ， 并 将 其 入 栈 














CR 






































栈 项 的 值 ( int ) 赋值 给 栈 项 的 对 象 中 ， ， 
pop_field int short [int object]—>[] 


与 操作 数 ( 即 索 引 值 ) 对 应 的 属性 
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( 续 ) 
指令 操作 数 类 型 含义 栈 动作 
用 栈 项 的 值 ( aouble ) 赋值 给 栈 项 的 对 
pop_field double short 和 [double object]—>[] 
加 象 中 与 操作 数 ( 即 索引 值 ) 对 应 的 属性 
栈 项 的 值 ( opjectl ) 给 栈 项 的 对 
pop field object Short 象 中 与 操作 数 ( object2 ) 对 应 的 属性 [object1 object2] -=>[] 
赋值 
根据 操作 数 ( 即 索引 值 ) 取得 栈 项 对 象 
push method short 的 方法 的 索引 值 ， 并 将 其 入 栈 ( 请 参考 | [object]>[object int] 

















8.4.5 节 ) 





创建 与 操作 数 ( 即 索 引 值 ) 对 应 的 类 的 
实例 ， 秆 它 的 引用 入 栈 。 此 时 并 不 会 , 
new short [] = [object] 


调用 构造 方法 ， 因 此 接 下 来 会 另外 创建 
构造 方法 的 调用 代码 


































































































将 栈 中 的 对 象 引用 的 vtable 替换 为 操作 ， 
up_cast short 、 a [object]—=>[object] 
三 数 指定 的 接口 ( 请 参考 8.3.4 节 ) 




















检查 栈 上 的 对 象 引 用 是 否 能 向 下 转型 ， 
down cast short 在 此 基础 上 将 它 的 vtable 替换 为 操作 [object]>[object] 
数 指定 的 接口 的 vtable ( 请 参考 8.4.9 节 ) 












































, 从 栈 项 取得 操作 数 指定 个 数 的 元 素 ， 将 ， 
duplicate offset short [] = [object] 


其 复制 并 入 栈 



























































super 仁 栈 项 的 对 象 3 


的 vtable 替换 成 其 父 类 的 [object]>[object] 




















, 返回 栈 项 的 对 象 是 否 属于 操作 数 ( 即 索 , 
instanceof short 二 [object] =>[boolean] 
引 值 ) 指定 的 类 型 


























访问 字段 的 指令 ， 把 字段 的 索引 值 作为 操作 数 传 递 就 可 以 了 。 这 里 的 字段 值 
指 的 是 保存 在 FieldMember 结构 体 中 的 field ingdex。 
除 此 之 外 的 指令 将 在 后 面 的 章节 中 介绍 。 


补充 知识 ”方法 调用 、 括 号 和 方法 指针 


在 Diksam 中 调用 方法 或 函数 的 时 候 ， 会 像 p.get_x() 这 样 使 用 括号 。 即 使 方法 
中 一 个 参数 都 没有 ， 括 号 也 不 能 省 略 。 
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在 Ruby 中 即使 有 参数 
也 可 以 省 略 括号 。 





yen 





























数 都 没有 的 时 候 就 可 
约 了 录入 量 。 



































但 是 ， 根 据 语言 的 不 同 ， 












































以 省 略 掉 括号 

















public double get x() { 


Peturn Xp 


} 


的 括号 也 是 可 以 省 略 的 。 例 如 在 Eiffel 的 语言 
*。 这 种 做 法 的 优点 只 是 单纯 地 改善 了 外 观 问 题 ， 节 





在 Java 和 C++ 中 ， 为 了 实现 封装 ， 普 遍 的 做 法 是 将 字段 设置 为 private， 然 
再 像 下 面 这 样 编写 访问 器 ( accessor )。 


一 个 
个 参 





oll 














这 里 将 来 可 能 会 发 生变 化 ， 例 如 也 许 不 会 把 x 单单 作为 字段 保存 ， 而 是 将 计算 后 的 





结果 返回 













































































件 非常 麻烦 的 事 。 

















去 。 考 虑 到 这 种 情况 ， 创 建 访问 器 的 方法 比 起 把 字段 设置 为 public 公开 出 去 
要 好 。 但是， 编写 访问 器 是 























































































































































































































在 这 点 上 Eiffel 的 做 法 是 ， 最 初 的 字段 是 公开 的 ， 如 果 中 途 想 要 修改 为 在 计算 后 再 
返回 结果 的 话 ， 此 时 可 以 定义 一 个 名 字 为 x 的 方法 替换 掉 最 初 公开 的 字段 。 不 论 是 字段 
还 是 方法 ， 从 使 用 者 的 角度 来 看 都 是 p .x， 这 种 做 法 达到 了 在 不 影响 使 用 者 的 前 提 下 将 
字段 替换 为 方法 的 目的 。 

说 起 替换 x, 在 Eiffel 中 默认 是 不 能 使 用 p.x 为 其 赋值 ( 使 用 “. ”对 字段 进行 引用 
时 不 能 作为 左 值 )。 因 此， 每 个 字段 的 访问 器 都 是 在 台 就 强制 创建 的 。 我 很 同意 这 
种 做 法 ， 从 外 部 改变 字段 的 值 是 件 大 事 ， 因 此 必须 编写 方法 来 实现 。 

我 认为 这 是 一 个 不 错 的 主意 ， 但 在 Diksam 中 并 没有 使 用 。 原 因 是 ， 采 用 了 这 种 方 




























































































式 的 话 方 ; 


本 身 就 不 能 








9 作为 值 被 处 理 了 。 














// set_on click 方 法 中 传递 了 对 象 o 的 方法 作为 参数 。 


buttonnse tonleler(o methneoa), 





上 面 的 代码 注 











册 1 
如 果 把 方法 指 和 





























个 事件 








， 在 按 下 GUI 的 按钮 时 相当 于 调 




















了 o.methodq () 。 






































作 事 件 句柄 或 者 回调 方 ; 


的 话 ， 会 发 现 调 





o.method 方 























法 是 件 困难 的 事情 ( 




















寻 为 要 








将 方法 自身 作为 














值 处 理 的 功能 ， 将 在 9.5.4 节 中 实现 。 








区 可 方法 调用 


Diksam 中 push_method 指令 用 于 在 考虑 了 多 态 的 情况 下 ， 决 定 被 调用 的 


方法 o 


向 set_on_click 传递 o.method() 的 执 





行 结果 )。 





push_method 与 push_function 把 函数 人 栈 的 功能 相似 , 是 把 方法 入 栈 。 


实际 上 被 推 人 栈 中 的 也 和 函数 一 样 , 是 DVM_VirtualMachine 中 Function 


























中 意思 是 让 编程 人 员 知道 

















己 开 放 了 哪些 字段 是 可 以 从 外 部 赋值 的 。 一 一 译 者 注 
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型 的 对 应 表 的 索引 值 。 作 为 操作 数 的 索引 值 ， 跟 字段 的 情况 差不多 ， 是 
MethodMember 结构 体 的 method index。push method 会 根据 栈 中 的 对 象 
和 methogd index， 在 考虑 到 多 态 的 情况 下 选择 适当 的 函数 。 

push_method 在 选择 了 适当 的 方法 之 后 就 要 进行 调用 了 ， 这 个 动作 与 调用 
普通 的 函数 基本 相同 ， 使 用 的 指令 也 都 是 invoke。 

Diksam 的 函数 调用 已 经 在 6.4.3 节 中 介绍 过 了 。 

但 是 ， 在 调用 方法 的 时 候 ， 必 须要 将 目标 对 象 传递 给 方法 。 在 被 调用 的 方法 
中 这 个 对 象 将 被 作为 this 进行 引用 。 

在 Diksam 中 this 作为 最 后 一 个 参数 传递 给 方法 。 如 图 8-9 所 示 。 







































































函数 调用 者 在 运算 













































”和 this 作为 最 后 一 个 
参数 被 传递 给 方法 
































因为 增加 了 this， 局 计 
变量 中 以 base 为 基准 
的 偏 移 量 也 增加 了 1 


ee] 
































吓 
ok 


增长 方向 


在 Diksam 中 ， 参 数 按照 从 前 往 后 的 顺序 人 栈 ， 此 时 this 是 最 后 一 个 参数 ， 























成 为 了 栈 的 顶端 。 因 此 ，push_method 的 时 候 可 以 引用 this 选择 方法 。 
另外 ， 如 图 8-9 中 所 示 。 局 部 变量 的 偏 移 量 也 因为 增加 了 this 而 增加 了 1。 
这 个 调整 在 加 载 时 进行 ( 请 参考 load.c 的 convert _code () 函数 )。 
在 new 时 调用 的 构造 方法 多 少 会 有 些 不 同 ， 操 作 步骤 如 下 : 
先 ， 创 建 对 象 并 将 其 引用 入 栈 。 
2. 将 构造 方法 的 参数 按照 从 前 到 后 的 顺序 入 栈 。 
3. 使 用 duplicate_index 指 令 将 1. 中 创建 的 对 象 引 用 复制 到 栈 的 顶端 。 


























汪 


























中 
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yen 











使 用 invoke 指 令 调 用 方法 。 
5. 最 后 ， 在 栈 中 只 留 下 了 1. 中 入 栈 的 对 象 引用 。 

















和 和 SUPer 


Diksam 和 Java 一 样 ， 有 super 关键 字 。 使 用 它 可 以 调用 到 this 的 超 类 的 
为 于 5 

在 Diksam 中 super 的 实现 非常 简单 , 只 将 this 指向 的 DVM_ObjectRef 的 
vtable 替换 成 超 类 即 可 。 

但 是 ， 并 没有 把 让 super 保存 在 其 他 变量 中 的 使 用 方法 考虑 在 内 (如 “p = 
super;”)。 因 此 ,除了 super. 方法 名 () 以 外 的 形式 ， 其 他 在 编译 时 都 会 报错 。 

并 且 ,， 在 Diksam 中 超 类 的 构造 方法 并 不 能 通过 super () 的 形式 调用 ， 而 是 
必须 要 使 用 super.initialize() 的 形式 。 在 Diksam 中 ， 不 显 式 地 指定 构造 
方法 名 称 的 话 ， 就 不 能 知道 调用 的 是 哪个 构造 方法 。 


8.4.7 | 类 的 链接 


类 与 函数 相同 ， 也 会 引用 多 个 文件 ， 因 此 必须 要 进行 链接 。 

这 里 的 结构 和 函数 的 基本 相同 。 下 面 进行 简单 地 介绍 。 

在 8.4.3 节 中 提 到 过 ，DVM_Executable 中 保存 着 DVM_Class 的 数组 。new 
上 令 以 操作 数 的 形式 保存 着 类 的 索引 值 ,这 个 索引 值 就 是 DVM_Executable 中 DVM_ 
Class 的 下 标 。 因 此 ， 即 使 没有 在 当前 代码 中 定义 ， 只 是 单纯 被 使 用 到 的 类 也 会 被 
注册 到 DVM_class 数组 中 ， 而 且 这 样 的 类 ， 它 的 is_implemented 为 false (请 
参考 8.4.3 节 )。 

将 DVM_Executable 加 载 到 DVM 的 时 候 ，push_function 的 操作 数 将 
会 蔡 换 为 DVM 内 的 下 标 (请 参考 6.4.1 节 )。 类 的 话 ，new 的 操作 数 将 会 被 蔡 换 
为 DVM 内 的 下 标 (load.c 的 convert _code() 函数 )。 

这 里 说 的 “DVM 内 的 下 标 ” 是 指 DVM_VirtualMachine 中 ExecClass 数 
组 的 下 标 。ExecClass 创建 于 加 载 包含 类 的 源 文件 的 时 候 ， 同 时 也 会 扩 
展 ExecClass 数组 (loadc 的 add_ classed() 因数 )。 
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is implemented 为 false 的 DVM Class 会 在 此 时 舱 入 方法 的 实现 。 


区 本 实现 数组 和 字符 串 的 方法 


如 同 在 8.2.7 节 中 写 到 的 ，Diksam 的 数组 和 字符 串 有 不 少 内 建 方 法 。 

不 论 是 数组 还 是 字符 串 在 创建 对 象 的 时 候 ， 都 在 引用 对 象 的 DVM_ 
ObjectRef 中 以 保存 硬 编码 vtable 的 方式 实现 。 在 这 个 vtable 中 注册 了 数组 或 
者 字符 串 方法 的 (原生 方法 ) 实现 。 

这 样 就 可 以 在 运行 时 调用 方法 了 ,但 在 编译 时 必须 要 进行 参数 检查 。 最 麻烦 
的 是 ， 例 如 确定 数组 的 insert () 方法 中 第 2 个 参数 ( 要 插入 的 数组 元 素 ) 的 类 
型 。int 数组 第 二 个 参数 必须 是 int，Point 类 的 数组 则 必须 是 Point。 
认真 考虑 这 个 问题 的 话 ， 就 会 想到 Java 的 泛 型 (Generics ) 和 C++ 的 模板 
这 些 功能 。 但 是 ， 现 在 没有 必要 只 是 为 了 数组 使 用 这 么 复杂 的 处 理 方式 ， 用 
下 面 的 方式 也 可 以 解决 (保存 一 个 包含 了 内 建 方 法 参数 的 类 型 信息 的 数组 ) 


( fix tree.c )。 

































































/* 参数 的 类 型 和 数量 保存 在 static 的 数组 中 
* DVM_BASE_TYPE 表示 数组 元 素 的 类 型 。 
WH 

static DVM BasicType st array size arg[] = {}; 

static DVM BasicType st array resize arg[] = {DVM INT TYPE}); 

static DVM BasicType st array insert arg[] = {DVM INT TYPE, DVM BASE TYPE}; 

static DVM BasicType st array remove arg[] = {DVM INT TYPE}); 


虽然 我 觉得 这 么 做 不 太 优 雅 ， 但 还 是 在 DVM_BasicType 中 加 入 了 奇怪 的 元 
素 (DVM_ BASE TYPE )。 


8.4.9 | 类 型 检查 和 向 下 转型 


类 的 类 型 检查 ( instanceof ) 和 问 下 转型 其 实 是 两 个 相似 的 功能 。 向 下 转 
型 在 执行 时 也 会 进行 和 instanceof 相同 的 类 型 检查 。 

因此 ，instanceof 和 向 下 转型 可 以 看 作 是 编译 时 进行 的 检查 。 首 先 ， 
Diksam 中 存在 着 类 和 接口 , 在 A _ instanceof B 的 时 候 ， 会 出 现 以 下 几 种 
情况 。 
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这 里 采用 了 Java 的 说 法 。 





yen 
















































































































































































A B 

类 类 只 有 在 人 和 B 为 同一 类 , 或 A 是 B 的 超 类 时 ， 才 有 可 能 返回 真 。 
类 只 有 在 B 实现 了 A 的 情况 下 ， 才 有 可 能 返回 真 。 

类 接 在 A 的 子孙 中 只 要 有 实现 了 B 的 ， 通 常会 返回 真 。 

接 接 对 象 实现 了 A 和 B 两 个 接口 的 时 候 ， 通 常会 返回 真 。 





也 就 是 说 ，instanceof 的 右边 指定 了 类 的 时 候 ， 编 译 时 会 因为 绝对 不 会 为 
真 的 instanceof 而 导致 错误 。 向 下 转型 时 也 是 一 样 ， 如 果 类 之 间 没 有 继承 关 
系 的 话 也 不 可 能 进行 向 下 转型 。 

更 为 重要 的 是 ， 在 Diksam 中 ， 绝 对 为 真 的 instanceof (同类 之 间 的 和 与 
超 类 进行 的 instanceof )、 问 超 类 的 转型 也 会 导致 编译 错误 。 我 认为 ， 没 用 的 
代码 最 后 会 导致 bug， 在 编译 时 应 该 阻止 这 种 情况 发 生 。 

运行 时 的 检查 ， 将 在 ExecClass 结构 体 中 遍历 所 有 超 类 和 接口 (因此 ， 速 
度 不 是 很 快 )。 

向 下 转型 的 时 候 ， 在 进行 了 和 instanceof 同样 的 检查 后 ， 如 果 转 型 目标 
是 类 ， 就 将 引用 中 保存 着 的 vtable 替换 为 目标 类 的 vtable。 如 果 转 型 目标 是 接口 
的 话 ， 就 用 目标 接口 的 vtable 替换 。 


补充 知识 ”对象 终 结 器 ( finalizer ) 和 析 构 函数 ( destructor ) 


在 Java、C++、C# 等 语言 中 ， 类 对 象 销毁 时 可 以 通过 用 户 程序 得 知 。 具 体 来 说 ， 
在 对 象 销 毁 时 ，Java 会 使 用 终结 器 ，C++ 和 C# 则 会 调用 被 称 为 析 构 函数 的 方法 。 
但 是 ，Diksam 中 没有 这 个 功能 。 姑 且 不 论 必须 完全 由 编程 人 员 控 制 对 象 寿 命 的 
C++， 和 可 以 预测 对 象 销毁 时 机 的 Python ( 使 用 基本 的 引用 计数 器 类 型 GC， 在 不 创建 
循环 引用 的 前 提 下 )，Diksam 这 样 的 语言 中 即使 创建 了 对 象 终结 器 * 也 没有 什么 作用 。 
对 象 终结 器 的 用 途 ， 比 如 说 用 来 关闭 在 C 中 fopen () 返回 文件 的 指针 。 因 为 能 够 
的 文件 数 ( 译注 : 文件 句柄 ) 在 进程 中 是 有 上 限 的 ， 所 以 使 用 fopen () 打开 的 文 
完 后 应 该 立即 关闭 。 但 是 这 个 处 理 如 果 要 交 给 对 象 终结 器 的 话 ， 它 也 不 知道 要 何 
时 进行 哪些 操作 ( 特别 是 Java 中 连 有 没有 进行 动作 都 不 知道 )。 说 不 定 在 处 理 开 始 前 ， 
所 有 的 文件 句柄 就 已 经 用 光 了 。 所 以 说 这 种 做 法 不 保险 。 
如 果 像 上 面 说 的 那样 ， 我 想 还 是 不 要 定义 对 象 终结 器 。 如 果 能 够 简单 地 实现 对 象 终 
结 器 的 话 ， 也 许 效果 会 更 好 。 但 是 ， 实 际 上 想 要 优雅 地 实现 对 象 终结 器 并 非 易 事 。 
也 许 有 人 会 想 ,“ 咽 ? 释放 对 象 空间 之 前 ， 不 是 只 会 调用 finalize() 方法 吗 ?” 
如 果 在 对 象 终结 器 中 把 this 赋值 给 了 全 局 变量 或 者 其 他 东西 的 话 怎么 办 ? 

垃圾 回收 器 会 根据 “不 能 被 追溯 到 的 对 象 ”这 一 原则 来 判断 对 象 是 否 不 被 需要 。 但 















































































































































= 














































































































































































































全 
f 饼 导 






























































人 




















































































































































































































图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


8.4 关于 类 的 实现 | 269 


























是 ， 在 对 象 终结 器 中 将 this 赋值 给 了 全 局 变量 的 话 ， 此 时 这 个 对 象 就 可 以 从 全 局 变量 
中 被 追溯 到 ， 以 至 于 不 能 被 释放 了 。 

Java 的 GC 也 不 得 不 面 对 这 个 问题 。 目 育 
GC 的 效率 大 幅 下 降 。 

另外 ，crowbar 和 Diksam ( book_ver.0.4 ) 中 ， 对 于 指向 原生 指针 类 型 的 对 象 来 
说 ， 可 以 使 用 原生 函数 实现 对 象 终结 器 。 编 写 原 生 函 数 多 少 会 包含 一 些 危险 的 处 理 ， 因 
此 不 得 不 考虑 到 ， 如 果 对 在 原生 函数 中 悄悄 地 把 对 象 释放 了 ， 然 后 又 被 其 他 程序 引用 的 
话 就 会 导致 月 溃 ， 那 么 只 能 后 果 自 负 了 。 
























































已 知 的 是 如 果 使 用 了 对 象 ， 终 结 器 会 使 
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和 区 四 为 crowbar 引入 对 象 和 闭 包 


在 第 8 章 中 为 Diksam 引入 了 类 ， 但 是 目前 的 crowbar 还 不 支持 面向 对 象 
































而 在 当今 的 编程 语言 中 ， 大 有 如 果 不 文 持 面向 对 象 就 不 会 被 认可 的 架势 ， 
此 也 要 让 crowbar 支持 面向 对 象 。 

但 是 ，crowbar 的 面向 对 象 与 Diksam、C++、Java、C# 等 相 比 会 有 一 些 不 同 。 
它 没有 类 的 概念 。 

本 节 将 要 介绍 的 ， 就 是 crowbar 的 面向 对 象 具 体 是 怎样 设计 和 实现 的 。 


区 可 crowbar 的 对 象 


像 前 面 提 到 的 ，crowbar 中 没有 类 的 概念 。 因 此 ， 创建 对 象 的 时 候 也 不 需要 
指定 类 和 使 用 new 指令， 只 是 单纯 地 调用 原生 国 数 new_object () 即 可 。 

















= newoBbieee 
crowbar 中 的 对 象 与 C 对 象 的 结构 体 相同 ， 也 可 以 保存 成 员 。 但是， 由 于 没 
有 类 声明 也 没有 结构 体 声明 ， 因 此 成 员 将 在 运行 时 以 赋值 的 方式 增加 。 














PE=SnewioDnleee 


1 9:4 (0) 
poy = 207 
ene (Ve o (UW aoe Se WU oe ee Nam) 























肯定 有 人 会 说 〈 我 必须 承认 我 也 是 其 中 一 员 ) :“ 没 有 类 型 声明 感觉 真是 别 
扭 。” 但 起 码 这 个 方式 实现 了 类 似 C 的 结构 体 的 功能 。 

并 且 ， 与 Diksam、Java 一 样 ， 这 个 对 象 也 是 引用 类 型 的 ， 使 用 new_ 
object () 返回 了 一 个 指向 对 象 的 引用 。 因 此 ， 下 面 的 代码 将 输出 20。 











al 二 Te doje (sy 
Sl mass a LO 

D2 Ol 

S22nege 20 
Emaleincos 下 


上 面 这 段 代码 的 内 存 映 像 如 图 9-1 所 示 。 
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类 型 


在 Perl 的 ver.4 中 还 是 
叫 作 “关联 数组 "， 但 
从 ver.5 开始 就 叫 作 " 哈 
希 ” 了 。 我 认为 哈 希 只 
不 过 是 一 个 实现 方式 ， 
因此 还 是 “关联 数组 ” 
的 名 字 更 为 贴切 。 



































到 在 作为 的 宁 人 
还 不 能 使 天 
上 还 不 能 和 
组 投入 使 用 。 顺 便 提 
下 ，JavaScript 中 可 以 
使 

天 




































































[] 访问 数组 元 素 ， 
比 可 以 作为 关联 数组 
使 用 。 
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ole >、 
c[ 时 一 


9.1.2 | 对 象 实现 
还 是 在 Diksam 中 ， 都 是 指 


首先 ， 关于“ 对象 ”这 个 词 无 论 是 在 crowbar 中 

“在 堆 中 被 创建 的 ”字符 串 、 数 组 、 类 的 “对 象 "。 像 crowbar 的 CRB_Object、 
Diksam 的 DVM_Object 结构 体 ， 这 些 都 是 通过 联合 体 保存 的 “在 堆 中 被 创建 的 
对 象 ”。 

在 Diksam 中 ， 堆 中 类 的 实例 的 对 象 被 称 为 “类 对 象 ”或 者 “类 的 实例 ”。 但 
是 ，crowbar 中 并 没有 类 的 概念 。 

对 于 使 用 者 来 说 ， 应 该 把 数组 叫 作 数组 ， 把 字符 串 叫 作 字符 串 才 对 吧 。 因 
此 ，new_object () 函数 返回 的 也 应 该 叫 作 “对 象 "。 但 是 ， 从 crowbar 的 实 
现 上 来 看 ， 由 于 已 经 引入 了 叫 作 CRB_object 的 结构 体 ， 因 此 不 得 不 给 new_ 
) 返回 的 东西 起 一 个 其 他 的 名 字 。 

这 里 把 这 个 东西 叫 作 assoc。assoc 是 关联 数组 ( associative array ) 的 简称 。 

之 所 以 被 称 为 关联 数组 〈 最 近 不 知道 为 什么 有 很 多 语言 叫 它 “ 哈 希 "* )， 是 
因为 它 是 可 以 以 字符 串 〈 等 ) 为 键 从 中 取出 值 来 的 数组 。 祷 庆 此 二 条 以 字 符 串 
为 键 取 值 这 点 ，crowbar 的 对 象 最 终 使 用 了 关联 数组 的 方式 *。 

assoc 的 结构 体 定义 如 下 ( crowbarh )。 



































object( 














typedef struct { 
char 
CRB Value 
CREEBOolean omnes 


*name; 


value; 


现 阶 段 不 需要 在 意 它 。 





} AssocMember; 


struct CRB Assoc tag { 


sai memeeme ene 


AssocMember *member; 


人 
assoc 的 成 员 是 名 称 和 值 的 组 合 ， 因 此 assoc 中 只 保存 了 AssocMembez 的 可 
变 长 数组 。AssocMember 中 的 is_final 是 个 谜 一 样 的 成 员 ， 因 为 它 是 一 个 不 
能 赋值 的 局 部 变量 ， 所 以 现 阶 段 不 需要 在 意 它 。 
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在 现在 的 实现 中 ， es 会 使 用 realloc () 来 扩展 可 变 长 数组 ， 
并 且 以 线性 的 方式 搜索 。 当 然 它 的 速度 不 快 ， 这 时 候 只 要 拿 出 富翁 式 编程 的 免 死 
金牌 来 就 好 了 。 

因为 要 引用 assoc， 所 以 要 修改 CRB_ Object。 





typedef enum { 
ARRAY OBJECT = 1, 
STRING OBJECT, 


ASSOC OBJECT, 增加 了 这 行 代 码 
SCOPE CHAIN OBJECT, 将 在 后 面 说 明 


NATIVE POINTER OBJECT, 
QBJECT TYPE COUNT PLUS I 
} ObjectType; 








struct CRB Object tag { 
ge ‘S73s 


unsigned int marked:1; 
union { 
CRB Array Ea 
CREES Gling EnmgE 
CRB Assoc assoc; 增加 了 这 行 代码 





ScopeChain scope chain; 将 在 后 面 说 明 
NativePointer aegEoennEee 

} ui 

SEUcte eReEnoD eectaead orev 

SEnueee eRe etmtadm ne 





与 此 同时 还 增加 了 ScopeChain 和 NativePointer 这 两 个 怪 东 西 , 还 是 留 
在 后 面 介 绍 吧 。 


BE me 

对 于 对 象 来 说 不 能 够 只 0 还 得 有 方法 吧 ? 我 好 像 听见 有 人 问 我 : 方 
法 怎么 着 了 ?” 但 是 ,我 还 是 要 把 这 些 急 脾 气 的 人 放 在 一 边 ， 先 讨论 一 下 别 的 话题 。 

在 crowbar 中 可 以 使 用 闭 包 ( closure ) a 所 谓 闭 包 ， 就 是 可 以 在 表达 式 中 
定义 函数 。 

# 创建 闭 包 


c = closure(a) { 


Ej 
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但 是 ， 在 crowbar 的 
标准 中 并 不 是 引 
入 foreach 函数 ， 而 


是 引入 foreach 语法 。 
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# 调用 闭 包 
S(O 


closure 是 创建 闭 包 的 关键 字 。 通 过 在 后 面 的 括号 内 定义 形式 参数 、 在 程序 
块 中 编写 代码 来 创建 闭 包 。 上 面 的 代码 中 把 创建 的 闭 包 赋 值 给 了 变量 c。 

利用 代码 c (10) 可 以 调用 闭 包 。 因 此 ， 这 段 代 码 会 输出 a. .10。 

C 语言 的 程序 员 看 了 这 个 可 能 会 想 ,“ 什 么 嘛 ! 这 不 就 是 函数 指针 吗 ?”( 当 
然 , 闭 包 可 以 在 表达 式 中 任意 编写 ， 比 国 数 指针 容易 上 手 )。 闭 包 确 实 有 与 函数 
间 针 相似 的 一 面 ， 实 际 上 使 用 方法 也 是 一 样 的 。 

但 是 ， 决 定性 的 区 别 在 于 ， 闭 包 可 以 引用 到 闭 包 声 明 所 在 位 置 的 局 部 变量 。 

举 一 个 关于 foreach 的 例子 。 在 crowbar 中 循环 数组 的 全 部 元 素 时 需要 编 
写 如 下 代码 : 


Eh 


















































| 


(= 
大 处 理 





) 

这 种 编码 方式 依赖 于 数组 概念 的 实现 。 如 果 此 时 改变 设计 思路 ， 不 用 数组 而 
改 用 链表 了 了， 那么 与 之 相关 的 所 有 地 方 都 要 进行 修改 。 这 是 一 件 很 烦人 的 事 ， 
此 在 C# 中 出 现 了 一 个 叫 作 foreach 的 语法 。 




















foreach (Object o in hogeCollection) 


// 处 理 





} 
Java 从 J2SE5.0 开始 也 增加 了 同样 的 语法 。 有 了 这 个 语法 确实 方便 了 不 少 ， 
虽说 方便 了 但 是 还 是 要 考虑 如 何 把 它 调 整 为 语法 规则 。 
但 是 ， 在 可 以 使 用 闭 包 的 语言 中 ， 是 可 以 把 代码 写成 下 面 这 样 的 *。 


foreach (hoge collection, closure(o){ 
# 处 理 
| 有 


这 里 的 foreach 并 不 是 关键 字 ， 而 是 单纯 程序 库 的 函数 。 第 1 个 参数 是 集合 
对 象 ， 第 2 个 参数 可 以 接收 闭 包 。foreach 函数 将 第 1 个 参数 ( 集合 对 象 ) 中 的 
元 素 依 次 取出 ， 并 以 此 为 参数 调用 第 2 个 参数 ( 闭 包 )。 

如 果 只 是 满足 调用 foreach 哨 数 时 的 这 个 功能 的 话 ， 那 么 C 的 函数 指针 也 
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是 可 以 实现 的 。 但是， 在 通过 这 种 方式 使 用 闭 包 的 时 候 ， 如 果 可 以 从 循环 的 内 部 
引用 外 部 的 变量 的 话 ， 就 是 一 件 不 寻常 的 事情 了 。 


Ep = Eopenl(heoge seme 全 风 于 











foreach (hoge collection, closure(o) { 
fputs(o.name，fp) ; # 引用 循环 外 部 的 变量 fp 




















J 
闭 包 使 这 种 调用 方式 成 为 可 能 。 这 就 是 财 包 与 C 语言 的 函数 指针 之 间 决 定性 
的 不 同 。 


ED > 


对 象 和 闭 包 组 合 起 来 ， 就 变 成 了 下 面 这 段 代 码 ( 代码 清单 9-1 )。 






























































代码 清单 9-1 1: # 创建 “点 ”的 函数 ( 构件 方法 ) 
Point.crb (之 一 ) 2: function create point (x, y) { 
3 this = new object(); 
4 下 下 主攻 天 二 莹 
5 thisy = Yy; 
6 
7 # 定义 输出 坐标 的 方法 print () 
8 this.print = closure() { 
9s print("(" + this.x + ", " + this.y + ")\n"); 
10: }; 
11: # 定义 移动 坐标 的 方法 move () 
12.: this.move = closure(x vec, y vec) { 
13: this.x = this.x + x vec; 
14: this.y = this.y + y_vec; 
153 }; 
16: return 七 ni; 
17: } 
183 
19: # 创建 对 象 
20; Pp = create point (10; 20); 
BL 
22: # 调用 move() 方法 
23: p.move(5, 3); 
24: 
25: # 调用 print() 方法 
号 6 Dbrint()s 


























由 于 crowbar 中 没有 专门 的 “方法 ”功能 ， 因 此 通过 上 面 的 方式 让 对 象 的 成 
员 持 有 闭 包 ， 也 就 实现 了 与 Diksam、Java、C++ 等 语言 类 似 的 方法 功能 。 
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代码 清单 9-1 的 第 3 行 出 现 的 this 也 不 是 关键 字 ， 其 实 只 是 取 什 么 名 字 











都 可 以 的 局 部 变量 ， 只 不 过 使 用 this 的 话 ， 对 于 习惯 了 C++ 或 Java 的 人 来 
说 比较 容易 理解 。 重 点 在 于 ， 从 闭 包 内 部 可 以 访问 到 外 部 的 局 部 变量 ， 因 此 


在 print () 





) 和 move() 的 内 部 可 以 引用 到 this。 


如 果 想 要 继承 或 者 多 态 的 话 ， 只 需要 在 调用 create_ point () 的 基础 上 增 
加 新 的 方法 覆盖 原 有 的 方法 就 可 以 了 。 





代码 清单 9-2 1 
Point.crb ( 子 类 ) 2 
3 
4: 
5B: 
6 
了 
8 
9 : 
103 
11: } 





: # 生成 “ 子 类 ” 


: function create extended point (x, y) { 


this = create point (x, y); 





# 重 写 print () 
this.print = closure() { 
print ("**xoverride** (" + this.x + ", " + this.y + ")\n"); 


| 


return this; 











另外 ， 现 在 的 create_point () 方法 外 面 如 果 书 写 代码 p.x 的 话 是 可 以 引 







































































用 到 x 的。 也 就 是 说 , p 的 成 员 x、y 的 默认 是 public 的 。 如 果实 在 是 不 喜欢 这 
种 方式 , 也 可 以 不 在 this 中 保存 x 和 y, 而 是 使 用 代码 清单 9-3 的 方式 增加 访问 
器 就 可 以 了 。 
代码 清单 9-3 1: # 创建 “点 ”的 函数 ( 构件 方法 ) 
Point.crb ( 封装 版 ) 2: function create point (x, y) { 
3 this = new object () ; 
4: 
5 this.print = closure() { 
6: print("( +X+n n+y+nxn); # < 即使 不 是 this.x 也 可 以 引 
和 }; 
8: this.move = closure(x vec, y vec) { 
9: X=X+ xX vec; 
4s y=Yy + Yy_ vec; 
和 }; 
12: # 增加 访问 器 ( 省 略 了 get_y() ) 
了 this.get x = closure() { 
14: Feturn Ry 
王后 党 }; 
16: return this; 
L173 寺 























在 create_point() 内 创建 的 闭 包 拥有 可 以 引用 参数 (或 者 说 局 部 变 
量 ) x 和 y 的 特性 。 
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只 


上 面 这 些 就 是 基于 crowbar 的 面向 对 象 。 


9.1.5 | 闭 包 的 实现 





看 了 前 一 节 的 代码 ， 可 能 有 人 会 有 下 面 这 样 的 疑问 。 











如 果 this、x、y 都 是 局 部 变量 的 话 ， 在 函数 create point () 











退出 的 时 候 不 是 就 

















该 被 释放 了 吗 ? 就 算是 在 闭 包 中 可 以 引用 到 外 部 的 








是 就 不 能 引用 了 吗 ? 




















真是 一 个 不 错 的 问题 , 但 上 面 的 担心 并 不 会 发 生 ， 这 才 是 闭 包 有 趣 的 地 方 。 
在 C 请 言 中 ， 进 入 函数 的 时 候 会 在 栈 上 创建 局 部 变量 的 内 存 空间 ， 函 数 退 
的 时 候 会 被 释放 。 此 时 ， 被 创建 / 释放 的 单 块 内 存 被 称 为 帧 ( fame )。 


在 crowbar 中 ， 到 book ver.0.3 为 止 ， 本 质 上 都 是 相同 的 (只 不 过 帧 不 是 

















局 部 变量 ， 但 如 果 被 释放 了 的 话 不 


出 


在 


栈 上 被 创建 的 而 是 在 堆 上 )。 然 而 在 上 述 示例 中 的 print() 和 move() 方法 ， 


在 create_point () 结束 后 才 被 调用 ， 而 且 在 方法 里 面 还 能 引 








用 到 this。 




















如 


果 使 用 “函数 退出 时 帧 也 会 被 释放 ”这 个 老 规则 ， 是 不 能 满足 这 种 变量 访问 方 





式 的 。 


在 现在 的 crowbar 中 ,创建 帧 的 时 机 和 往常 一 样 ， 但 是 释放 的 时 机 却 不 是 
“函数 退出 的 时 候 ”， 而 是 “ 帧 不 再 被 引用 的 时 候 ”。 也 就 是 说 ， 帧 的 释放 是 通过 





GC 进行 的 。 
但 是 ， 请 思考 一 ee 


首先 ， 帧 是 某 一 次 函数 调用 时 保存 局 部 变量 的 地 方 ， 对 于 局 部 变量 〈 群 ) 来 


说 ， Be 因此 使 





E 用 assoc 再 适合 不 过 了 。 也 就 


说 ， 在 调用 函数 的 时 候 创建 一 个 assoc， 并 将 局 部 变量 保存 在 其 中 就 可 以 了 。 








接 下 来 就 是 财 包 了 。 像 之 前 所 说 的 ， 闭 包 具 有 如 下 特性 。 








= 
A 








口 


1. 闭 包 是 一 个 值 ， 
的 方式 投入 使 用 。 
以 引用 创建 其 位 置 的 局 部 变量 。 


















































局 
口 


















































本 以 像 C 的 函数 指针 一 样 赋值 给 变量 ， 并 且 在 之 后 可 以 通过 函数 调 








首先 ， 先 来 介绍 一 下 第 一 个 特征 。 





由 于 闭 包 是 一 个 值 ， 必 然 可 以 保存 在 CRB_Value 中 ， 因 此 ， 在 CRB_ 


Value 的 联合 体 定义 中 需要 增加 CRB_Closure (代码 清单 9-4 ) 
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typedef enum { 
CRB_ BOOLEAN VALUE = 1, 
CRB_INT VALUE, 
CRB DOUBLE VALUE, 
CRB_STRING VALUE, 
CRB NATIVE POINTER VALUE, 
CRB_NULL VALUE, 
CRB_ ARRAY VALUE, 
CRB ASSOC VALUE, 














CRB CLOSURE VALUE, 
CRB_ FAKE METHOD VALUE, 将 在 后 面 的 章节 中 介绍 





CRB_ SCOPE CHAIN VALUE 
} CRB ValueType; 


typedef struct { 
CRB ValueType type; 


union { 

CRB_ Boolean boolean value; 

nt int value; 

double double value; 

CRB Object *object; 

CRB_Closure closure; 

CRB FakeMethod fake method; 将 在 后 面 的 章节 中 介绍 
} ui 








} CRB Value; 


这 里 增加 了 FAKE_METHOD， 我 会 在 后 面 的 董 节 中 介绍 ( 抱歉， 要 在 后 面 介 
绍 的 内 容 太 多 了 )。 

然后 是 第 二 个 特性 。 闭 包 虽 然 与 函数 指针 相似 ， 但 是 它 拥 有 可 以 引用 创建 其 
位 置 的 局 部 变量 的 特性 ( 对 于 这 点 ,也 有 闭 包 保存 了 其 创建 位 置 的 环境 ”的 说 法 )。 
局 部 变量 被 保存 在 assoc 中 ， 因 此 ， 我 想 CRB_Closure 结构 体 可 以 定义 成 下 面 
这 样 。 





















































typedf struct { 

CREEEUnE lionDetE ni wet me 

CRB Object *environment; /* 指向 帧 的 assoc */ 
} CRB Closure; 





成 员 function 指向 了 水 数 定 义 的 实体 CRB FunctionDefinition,， 
environment 则 指向 了 创建 闭 包 的 位 置 的 帧 。 





由， 环境, environment。 
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但 是 ， 这 里 有 一 个 必须 要 注意 的 地 方 ， 就 是 财 包 是 可 以 诅 套 的 。 
下 面 这 段 代码 中 ， 在 注释 的 位 置 肯 定 可 以 同时 引用 到 a 和 b。 
































ES ET 
0 
cD elosure() 
0 
e220 elosurel nl 
# 这 里 可 以 同时 引用 到 a 和 b 
Bt a a 
EN 
js 
S21 
7 
FOGUEn cl 
} 





虽说 闭 包 是 一 个 函数 ， 但 又 不 同 于 函数 ， 因 此 它 既 可 以 访问 保存 了 a 的 帧 
(函数 £() 的 帧 )， 又 可 以 访问 保存 b 了 的 帧 ( 闭 包 ci 的 帧 )。 因此 可 以 看 出 ， 
闭 包 要 保存 的 帧 不 止 一 个 。 

于 是 ， 引 入 了 作用 链 ( scope chain ) 这 个 概念 。 作 用 链 是 以 链表 方式 管理 的 
帧 的 assoc( 图 9-2 )。 


9-2 区 ScopeChain 对 象 




































































Assoc 对 象 
为 了 构建 这 个 链表 ， 我 们 引入 了 ScopeChain 结构 体 。Scopechain 作为 
GC 的 目标 ， 也 因此 成 为 了 CRB_Object 的 联合 体 的 成 员 〈 这 个 是 前 面 写 到 的 要 
在 后 面 章节 中 做 介绍 的 内 容 之 一 )。 
ScopeChain 结构 体 的 定义 如 下 。 


typedef struct { 
CRB Object *frame; /* 指向 CRB_Assoc */ 
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CRB Object *next; /* 指向 ScopeChain */ 
} ScopeChain; 


但 是 ，CRB_Closure 并 没有 直接 指向 代表 帧 的 assoc， 而 是 指向 了 


ScopeChain, 























typedef struct { 

CREBRUnetionnDeE nmionnE veelony 

CREEOBIEcE *environment; /* 指向 ScopeChain */ 
} CRB Closure; 


不 好 意思 各 位 ， 结 果 最 后 都 是 CRB_Object， 除 了 被 注释 的 内 容 之 外 没有 任 
说 到 这 里 旺 ， 各 位 一 定 会 何 改变 *。 
半 莫 能 够 使 用 继承 的 语 另外 ，LocalEnvironment 结构 体 中 也 同样 没有 指向 assoc， 而 是 指向 


言 吧 。 





























了 Scopechain。 
至 于 具体 怎么 去 使 用 上 面 定 义 的 这 些 结构 体 ， 我 想 在 跟踪 程序 实际 执行 时 考 
虑 的 话 ， 可 能 会 更 容易 理解 。 


9.1.6 | 试 着 跟踪 程序 实际 执行 时 的 轨迹 


在 crowbar 中 ， 调 用 函数 、 创 建 闭 包 、 调 用 闭 包 ， 都 要 进行 以 下 动作 。 





















































































































































































































































人 hl [ 规则 1] 在 调用 函数 的 时 候 ， 会 创建 新 的 LocalEnvironment 并 将 其 入 栈 为 栈 顶 *。 
vironment 被 创建 在 堆 在 这 个 LocalEnvironment 中 ， 为 了 保存 在 当前 函数 中 声明 的 局 部 变量 ， 
中 但 实际 二 甸 是 在 创建 并 分 配 ( 元 素 被 作为 一 个 作用 链 ) 了 一 个 新 的 assoc。 
中 实现 的 ， 医 这 、 ys a > ， A 
ta [ 规则 2] 在 创建 闭 包 的 时 候 ， 这 个 闭 包 保存 着 栈 项 LocalEnvironment 中 的 作用 链 。 
[ 规则 3] 在 调用 闭 包 的 时 候 ， 会 在 规则 1 中 创建 新 的 作用 链 之 后 ， 再 将 其 链接 到 保存 
闭 包 的 作用 链 上 。 
些 规则 在 实际 上 是 怎样 操作 的 ， 请 参考 代码 清单 9-5。 
代码 清单 95 1: function £() { 
试 着 追踪 闭 包 执行 的 2 a = 10; 
轨迹 3 cl1 =: closure() { 
4 Bs 2Z0; 
5: c2 = closure() ‘{ 
6 # 这 里 可 以 同时 引 到 a 和 b 
7 print ("a.." + a + "\n"); 
8 print ("b.." + b+ "\n"); 
9: }; 
10: c2(); 
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普通 的 函数 调用 




















创建 闭 包 





二 小生 }; 

有 return ci1l; 
人 } 

14: 

于 三 s €() 

6 GA(}s 





1. 普通 的 函数 调用 

首先 , 在 第 15 行 调用 £() 的 时 候 , 会 根据 规则 1 创建 一 个 LocalEnvironment， 
并 生成 第 一 个 帧 。 在 第 2 行 的 赋值 语句 中 ， 声 明了 a 并 保存 在 新 创建 的 帧 中 。 之 后 
的 动作 就 跟 调用 一 般 的 函数 一 样 了 (图 9-3 )。 男 外 ,为 了 更 清楚 地 描述 这 个 过 
程 ， 图 中 没有 出 现 ScopeChain 结构 体 ， 而 是 画 得 好 像 代表 帧 的 assoc 可 以 单独 
构建 链表 一 样 。 




















帧 


LocalEnvironment | 时 >[L: | 


2. 创建 闭 包 

第 3~11 行 创建 了 闭 包 。 

根据 规则 2， 闭 包 在 创建 的 时 候 保 存 了 指向 保存 了 LocalEnvironment 的 
作用 链 的 引用 。 


























LocalEnvironment [| 时运 


并 且 ，cl 本 里 就 是 一 个 局 部 变量 ， 因 此 与 a 保存 在 了 同一 个 帧 中 ， 图 中 为 
了 使 表达 更 为 简单 所 以 把 这 部 分 省 略 了 。 

这 里 的 “创建 闭 包 ”是 指 ， 执 行 用 关键 字 closure 创建 闭 包 的 处 理 的 时 候 。 
第 3 行 中 创建 了 闭 包 并 赋值 给 了 变量 c1, 但 是 并 没有 马上 调用 闭 包 cl , 在 第 5 行 
生成 男 外 一 个 闭 包 的 时 候 也 没有 执行 ， 直 到 调用 了 £() 将 其 返回 ， 闭 包 cl 一 直 
都 没有 被 调用 。 
3. 调用 闭 包 

调用 f£() 返回 之 后 ， 在 第 16 行 调用 了 闭 包 ci1。 

此 时 也 会 根据 规则 1 新 建 一 个 LocalEnvironment 和 帧 ， 并 且 根 据 规则 3， 
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用 闭 包 


9-6 
用 闭 包 








用 散 套 闭 包 
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在 新 建 了 帧 之 后 ， 青 将 其 链接 上 保存 着 闭 包 的 作用 链 ( 图 9-5 )。 
链接 引用 了 闭 包 的 作用 链 






































a 





新 的 帧 
































为 了 调用 c1 而 新 建 的 
LocalEnvironment 
在 cl 中 创建 b 的 空间 


在 搜索 局 部 变量 的 时 候 ， 会 对 LocalEnvironment 引用 的 作用 链 依次 进行 
搜索 。 因 此 ,在 cl 中 是 可 以 引用 到 局 部 变量 a 的 。 


4. 创建 闭 包 中 的 闭 包 

在 开始 执行 赋值 给 cl 的 闭 包 时 ， 首 先 会 执行 第 4 行为 b 的 赋值 。b 是 一 个 
单纯 的 局 部 变量 ， 因 此 会 在 LocalEnvironment 直接 指向 的 帧 中 创建 空间 。 

在 接 下 来 的 第 5~9 行 中 创建 第 二 个 闭 包 c2。 

此 时 ,根据 规则 2， 创建 闭 包 c2 时 保存 了 指向 LocalEnvironment 保存 
着 的 作用 链 。 因 此 ，c2 保存 的 作用 链 中 链接 着 存 有 b 的 帧 和 存 有 a 的 帧 (图 
9-6 )。 















































为 了 调用 cl 而 新 建 的 


LocalEnvironment 






































5. 调用 藤 套 闭 包 
在 第 10 行 调用 了 c2 的 时 候 ， 根 据 规则 3，c2 引用 的 作用 链 链接 到 了 新 
的 LocalEnvironment 上 ， 因此，c2 中 应 该 可 以 同时 引用 a 和 Pb。 




















为 了 调用 c2 而 新 建 的 








LocalEnvironment 


C2 
新 的 帧 
为 了 调 Wd . 
也 用 cl 和 而 新 建 的 
LocalEnvironment 












































出 











图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 村 











284 | 第 9 章 应 用 篇 








闭 包 的 语法 规则 


创建 闭 包 的 语言 规则 如 下 所 示 : 


celeosurendet meen 
CnOSUREN IDENTIeE LHR parameterdilnst Re blocke 
| CLOSURE IDENTIFIER LP RP block 

| CLOSURE LP parameter list RP block 

| CLOSURE LP RP block 

















在 closure definition 被 reduce 的 时 候 ， 在 create.c 中 会 创建 如 下 结构 
体 (想象 一 下 就 能 知道 ， 它 是 Expression 结构 体 的 联合 体 成 员 )。 


typedef struct { 
CRERUneEionnDetmniic on Fonet onade tm mn 
} ClosureExpression; 


由 于 闭 包 也 是 函数 , 因此 为 闭 包 表达 式 构 建 了 CRB_FunctionDefinition。 但 
是 这 个 CRB_FunctionDefinition 仅 可 以 由 分 析 树 中 的 ClosureExpression 3 引 | 
用 ， 并 不 会 添加 到 CRB_Interpreter 的 function list 里 面 。 

另外 ,在 上 面 的 四 个 语法 规则 中 ， 有 两 个 在 关键 字 closure 后 面 加 入 了 标 
识 符 ( IDENTIFIER )。 这 种 语法 规则 在 创建 命名 闭 包 时 使 用 。 

在 目前 为 止 出 现 的 例子 中 ， 闭 包 都 是 没有 名 字 的 。 但 如 果 想 要 在 闭 包 中 递归 
调用 自己 的 话 ， 给 闭 包 起 个 名 字 就 会 方便 很 多 。 

至 于 实现 上 ， 在 调用 命名 闭 包 时 ， 首 先 要 为 其 创建 新 的 帧 ， 此 时 将 闭 包 自 身 
作为 指定 名 称 的 局 部 变量 登录 进来 就 可 以 了 。 


9.1.8 本 二 


到 book _ver.0.3 为 止 ，crowbar 的 孔 数 调用 语法 规则 如 下 所 示 。 



































primary expression 
DanN op nn ar gumentalnstRe 
| IDENTIFIER LP RP 











为 了 可 以 使 用 闭 包 ， 函 数 调用 运算 符 () 的 左边 不 仅 可 以 是 IDENTIFIER,， 
还 可 以 是 任意 的 表达 式 。 
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因此 ， 普 通 函 数 也 发 生 了 变化 ,函数 名 用 来 返回 “表示 函数 的 值 ”( C 语言 
的 函数 指针 ) 。 函 数 的 实体 也 变 成 了 ClosureExpression。 

例如 ， 调 用 函数 print ("hello\n") 时 的 形式 为 ， 返 回 print 标识 符 对 
应 的 “函数 ”， 然 后 再 调用 它 。 此 时 ，pzint 返回 的 ClosureExptression 中 ， 
environment 成 员 为 NULL。 

当然 也 可 以 通过 下 面 的 方法 将 普通 函数 赋值 给 变 贞 


1 
Dlle lo wer DN 


9.1.9 | 模拟 方法 ( 修改 版 ) 


在 crowbar 的 数组 中 有 例如 size () 这 样 的 “方法 ”。 

book ver0.2 的 实现 方式 在 4.4.2 节 中 已 经 介绍 过 了 ,但 是 在 这 次 的 修改 中 ， 
水 数 将 作为 “ 值 ”被 处 理 。 因 此 ， 像 下 面 这 样 一 段 代码 必须 能 够 输出 array 的 
大 小 。 


a = ee ,Sa 
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Seine Nae .ELtzs + 
想 要 实现 它 ， 就 必须 要 让 a.size 返回 C 语 言 中 的 函数 指 不 仅 如 此 ， 


如 果 没 有 地 方 保存 指向 array 的 引用 ， es 
因此 ， 在 CRB Value 联合 体 中 ， 增 加 了 专门 用 来 “模拟 方法 ”的 CRB 
FakeMethod 成 员 (这 也 是 前 面 说 过 的 会 在 后 面 章节 中 介绍 的 内 容 之 一 )。 


typedef struct { 

char xmethod name; /* 方法 名 */ 

CRB Object *object; /* 相当 于 this 的 对 象 */ 
} CRB FakeMethod; 


CRB_FakeMethod 结构 体 保存 了 前 面 所 说 的 指向 array 的 引用 。 在 知道 了 
这 些 引 用 和 方法 名 之 后 ， 处 理 器 就 可 以 调用 模拟 方法 了 。 
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9.1.10 | 基于 原型 的 面向 对 象 


实际 上 ，crowbar 的 设计 方式 多 多 少 少 参 考 了 JavaScript。 
像 JavaScript 和 crowbar 这 样 没有 类 的 概念 、 每 个 实例 都 包含 不 同 字 段 和 
方法 的 语言 ， 被 称 为 基于 原型 的 面向 对 象 语言 ( prototype based object oriented 

















language )。 与 此 相对 ，Java、C# 和 Diksam 等 





具有 类 的 概念 的 面向 对 象 被 称 为 基 


于 类 的 面向 对 象 语言 ( class based object oriented language )。 
但 是 ， 一 般 被 称 为 “基于 原型 的 面向 对 象 ”时 ， 多 数 情况 会 包含 如 下 特性 : 
@ 可 以 通过 复制 ( 克隆 ) 现 有 对 象 来 创建 新 的 对 象 。 







































































。 当 调用 了 对 象 的 某 个 方法 之 后 ， 如 果 对 象 中 不 存在 这 个 方法 ， 则 自 
传递 给 其 他 对 象 ”( 原型 链 ，prototype chain )。 

虽然 在 JavaScript 中 具有 原型 链 功 能 ， 但 是 在 crowbar 中 却 没 有 。 这 也 就 意味 
着 ，crowbar 算 不 上 是 基于 原型 的 面向 对 象 语言 。 但 是 ， 基 于 原型 的 面向 对 象 
被 称 为 是 “基于 实例 的 ”或 者 是 “基于 对 象 的 "， 从 这 两 个 方面 去 看 crowbar， 












































许 还 能 够 跟 它 们 归 为 一 类 。 


异常 处 理 机 制 
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在 现在 的 语言 中 ， 当 程序 运行 过 程 中 发 生 了 预期 之 外 的 情况 时 ， 一 般 会 发 
生 异 常 ( exception )。 在 C 语言 中 ， 多 数 情况 下 会 通过 返回 值 不 停 地 给 调用 者 返 
回 “ 错 误 状 态 "。 这 种 做 法 不 仅 很 麻烦 ， 还 会 使 代码 由 于 币 和 人 了 腊 常 处 理 程序 而 


变 得 难以 阅读 。 











因此 ， 我 考虑 在 crowbar 和 Diksam 中 引入 异常 的 概念 。 


9.2.1 | 为 crowbar 引入 异常 


在 crowbar 中 引入 了 与 Java 相同 的 try~catch~finally 处 理 方式 。 











中 当然 这 两 个 对 象 要 具有 原型 继承 关系 。 一 一 译 者 注 
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在 Java 和 C# 的 catch 子 句 中 虽然 可 以 对 应 不 同 的 异常 类 型 并 进行 处 理 ， 但 
是 因为 crowbar 中 本 来 就 没有 类 型 ， 所 以 也 就 只 写 一 个 catch 子 句 。 具 体 的 示例 
请 参考 代码 清单 9-6。 


: try { 
ZEerO, 二 07 








星 

2 

3 : a= 3 / zero; 

4: } catch (e) { 

5: # 通过 child_of 方法 判断 异常 种 类 
6 

了 

8 

EE 





if(e.child of (DivisionByZeroException)) { 
print (" 不 能 被 0 除 。\n") ; 
} else { 
: throw e; 
10: } 
车 
代码 清单 9-6 的 第 3 行 试图 用 3 除 以 0， 这样 做 会 发 生 被 0 除 的 异常 (这 里 
特意 使 用 变量 zero 的 原因 是 ， 如 果 直 接 使 用 3/0 的 话 在 编译 时 会 出 现 错误 )。 
第 4 行 的 catcn 子 句 捕捉 了 这 个 异常 。 
第 6 行 中 ， 通 过 调用 捕获 异常 对 象 的 child_of () 方法 来 检查 异常 的 类 型 。 
这 段 代码 里 检查 了 异常 是 否 是 DivisionByZeroException 类 型 ， 如 果 是 则 输 
出 错误 信息 。 
如 果 不 是 处 理 融 定义 的 异常 ， 而 是 自己 认为 发 生 了 异常 情况 ， 可 以 使 
用 throw 抛 出 自 定 义 异 常 。 
















































































e = new exception(" 错误 信息 ") ; 
hsewee 


new_ exception() 是 一 个 原生 国 数 。 返 回 值 为 异常 对 象 ， 是 一 个 assoc。 
调用 new_exception() 时 ， 会 在 返回 值 中 保存 栈 轨迹 (stacktrace )。 这 个 异常 
如 果 没 有 被 catch 的 话 ， 会 一 直 传播 到 顶层 结构 。 处 理 咒 会 记录 栈 轨迹 ， 也 可 
以 通过 print_stack trace() 方法 从 程序 中 输出 栈 轨 迹 。 

像 被 0 除 这 种 在 处 理 器 中 发 生 的 异常 通常 都 会 有 父子 关系 ， 例 
如 DivisionByZeroException 就 是 ArithmeticException 的 子 类 。 
此 ， 在 代码 清单 9-6 的 第 6 行 可 以 将 DivisionByZeroException 替换 
为 ArithmeticException,，chilgd of () 方法 仍然 会 返回 真 。 

通过 在 各 “异常 类 ”中 保存 父 异 稼 的 方式 来 实现 这 种 父子 关系 。 另 外 ， 当 然 


无 论 是 ArithmeticException 还 是 DivisionByZzeroException 都 不 是 
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代码 清单 9-7 
“异常 类 ”的 实现 


六 











关键 字 ， 只 是 全 局 变量 而 已 。 说 了 这 么 多 ， 还 是 快 点 来 看 一 段 代码 吧 (代码 清 





9-7 )。 
1: function create exception class(parent) { 
2 this = new object(); 
lz this.parent = parent; 
4 this.create = closure(message) { 
5: e = new exception (message); 
6 e.stack trace.remove(0); 
7 e.child of = this.child of; 
8 return e; 
9: }; 
10: this.child of = closure(o) { 
于 二 for (p = this; p != null; p = p.parent) { 
12: if (B ==: O) { 
二 return true; 
14: 由 
15 : } 
16: return false; 
17s 党 
18 : return this; 
19: } 
20: 


21: RootException = create exception class (null); 

22: BugException = create exception class (RootException); 

23: RuntimeException = create exception class (RootException); 

24: ArithmeticException = create exception class (RuntimeException); 
25: VariableNotFoundException = create exception class (BugException),; 








( 之 后 省 略 ) 














代码 清单 9-7 的 源 文 件 在 buitin 目录 下 的 builtin.crb 中 。 具 体 是 如 何 加 载 它 的 
将 在 9.3 节 中 介绍 。 

从 第 1 行 开始 的 create_exception class() 函数 是 “异常 类 ”的 构造 
函数 。 各 种 异常 类 型 从 第 21 行 开始 被 定义 为 全 局 变量 。 异 常 类 对 于 程序 来 说 只 
存在 一 个 ， 可 以 通过 调用 异常 类 的 create () 方法 来 创建 这 个 异常 类 的 实例 。 

父 异 常 通过 “异常 类 ”的 构造 函数 接收 的 参数 parent 被 保存 起 来 。 因 此 ， 
的 child_of () 方法 可 以 检查 异常 的 层级 。 只 是 , 由 于 chilqd_of () 是 

”的 方法 ， 因 此 在 创建 异常 的 实例 时 要 把 它 设置 到 异常 的 实例 中 (第 7 

行 )。 异 和 常 实例 中 的 parent 成 员 即 使 什么 都 没有 ， 也 可 以 调用 childq_of () 方 
法 ， 这 就 是 财 包 的 魔力 。 

另外 ,第 6 行 移 除了 栈 轨 迹 的 第 一 个 元 素 ， 这 样 做 是 为 了 不 让 栈 轨迹 中 包含 








pe 


元 
宛 
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10 行 
异常 类 
，。 异 
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代码 清单 9-8 
exception.crb 


调用 create () 方法 的 痕迹 。 
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在 crowbar 中 ， 异 常 的 栈 轨迹 以 下 面 的 格式 输出 。 


不 能 被 0 除 。 
be Ele 
vale ale 
wmee ate 
fume ot 
Eeopmlevyelatees 


上 面 这 段 输出 来 自 代 码 清单 9-8 
Exception 异常 会 发 生 在 程序 的 深 


。 在 递归 调用 func () 时 ,DivisionByZero 
处 。 





: function func(count) { 
if (count < 3) { 


func (count + 1); 





王 
2 
3 
4 
Ss Zero = 0;，; 
6 
8 
9 








setjmp()/longjmp!() 





crowbar 的 程序 是 一 边 递归 分 析 树 一 边 执行 的 。 因 此 ， 在 发 生 异 常 的 时 候 ， 





会 一 下 子 追 溯 到 C 语言 的 调用 层级 
crowbar 的 控制 结构 zetuzn、 











于 return 和 break 只 会 发 生 在 





也 


9 


break、continue 有 着 同样 的 问题 ， 在 


使 用 上 述 控制 结构 时 ， 会 通过 返回 值 将 各 种 状态 返回 给 调用 者 。 但 是 ， 相 对 


“语句 ”级 别 ， 异 常 有 可 能 发 生 在 “表达 


式 ” 的 深 处 ， 因 此 要 将 它 对 应 返回 值 会 比较 麻烦 。 这 种 情况 下 ,我 们 可 以 使 


用 setjmp ()/Longjmp () 。 





























普通 的 C 语言 使 用 者 可 能 大 多 数 还 不 太 熟 悉 setjmp ()/1ongjmp () 。 更 确 





切 地 说 ， 有 的 人 认为 “ 它 是 一 个 比 goto 还 要 邪恶 的 ， 可 以 跨越 函数 界限 进行 长 
距离 (long ) 跳 转 (jmp ) 的 可 怕 函 数 1” 



































但 是 , 无论 什 么 事情 ,无论 是 好 是 坏 ， 都 要 好 好 的 研究 一 下 才能 下 结论 。 如 








果 自 己 连用 都 没 用 过 就 说 “这 个 不 好 用 ”, 那 这 人 也 实在 是 荒唐 。 


所 以 ， 以 下 我 们 先 简单 地 看 一 下 setjmp ()/longjmp () 。 
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六 











esetjmp () 的 参数 是 jmp_buf 类 型 的 变量 , 调用 函数 时 在 参数 中 保存 程序 的 上 下 文 。 
e Longjmp () 用 于 返回 到 使 用 setjmp () 保存 的 位 置 。 
即使 通过 多 次 函数 调用 进行 到 了 很 深 的 级 别 ， 也 可 以 瞬间 返回 。 
从 longjmp() 这 个 名 字 就 可 以 看 出 来 ， 它 可 以 跨越 函数 界限 随意 跳 转 
到 任何 位 置 。 但 实际 上 ， 它 只 能 “返回 ”到 使 用 setjmp() 标记 过 的 位 置 。 
在 longjmp() 看 来 ，setjmp() 标记 的 必须 是 “调用 者 ”。 在 longjmp () 的 时 
候 ， 被 setjmp () 标记 了 的 函数 在 没有 返回 的 情况 下 会 从 栈 中 删除 。 基 于 以 上 操 
作 ， 我 觉得 这 个 方法 叫 1ongjmp () 有 点 不 太 合适 ， 应 该 叫 1ongreturn () 才 
更 加 贴切 。 
更 重要 的 是 ，setjmp() 在 保存 程序 上 下 文 的 时 候 返 回 0。 Co 
用 longjmp() 返回 时 ，longjmp() 的 第 2 个 参数 也 会 跟着 返回 。 根 据 第 
参数 返回 的 值 ， 可 以 判断 出 当前 执行 的 程序 是 从 哪个 Iongjmp () 返回 的 。 
使 用 这 两 个 孔 数 编写 下 面 这 段 代 码 的 时 候 ， 可 以 从 深层 的 函数 调用 中 瞬间 返 
回回 来 。 
/* 为 了 保存 调用 者 的 程序 上 下 文 ， 声 明了 一 个 变量 */ 


menuErecovery environment, 





















































































































































meeemp eeoverm nnm ne 
/* setjmp() 在 第 一 次 调用 的 时 候 返 回 0， 
* 在 这 个 分 支 中 进行 正常 情况 下 的 处 理 
* 在 这 里 调 longjmp () 后 ， 会 执行 下 面 的 else 子 句 。 
* 对 于 1ongjmp () 的 调用 ， 在 这 里 即使 进行 了 


) 
EAC 


























































































































































































































* 深层 次 的 函数 调用 ， 其 结果 也 不 会 改变 。 
34 
Wengmelee overy en onmene IE 
} else { 
/* 执行 了 longjmp() 之 后 会 进入 这 个 分 支 进行 处 理 


} 





作为 参数 被 传人 setjmp () 的 jmp_pbuf 类 型 变量 中 保存 着 “当前 程序 的 上 
文 "。“ 当 前 程序 的 上 下 文 ”中 包含 了 当前 寄存 带 的 值 等 很 多 东西 ,但 首当其冲 
要 记录 的 我 认为 就 是 setjmp () 被 调用 的 地 点 。 再 把 这 个 jmp_buf 当做 参数 传 
递 给 1ongjmp () 的 话 ， 就 应 该 能 返回 到 jmp_buf 记录 的 地 点 了 。 
另外 ,可 能 有 人 会 有 这 样 的 疑问 :“setjmp () 的 参数 并 没有 加 上 & 传递 , 为 
什么 还 能 保存 程序 的 上 下 文 呢 ?”C 的 参数 不 是 按 值 传递 的 吗 ?” 这 是 因为 jmp_ 
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代码 清单 9-9 
execute_try_state— 
ment() 函数 
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buf 类 型 被 typedef 成 了 数组 。 请 务必 检查 您 环境 的 头 文件 。 我 觉得 这 是 一 个 
会 招致 混乱 的 设计 。 
实际 上 crowbar 的 异常 处 理 在 代码 清单 9-9 中 进行 了 实现 ( execute.c )。 
1: static StatementResult 
2: execute try statement (CRB Intercepter *inter, CRB LocalEnvironment *enyv, 
3 Statement *statement) 
4: { 
5: StatementResult result,; 
6: int stack pointer backup; 
了 3 RecoveryEnvironment env backup ; 
8 
9: /* 备份 crowbar 栈 的 栈 指针 和 jmp_buf */ 
10.s stack pointer backup = crb get stack pointer(inter); 
LL env backup = inter->current recovery environment; 
12. if (setjmp(inter->current recovery environment.environment) == 0) { 
13: /* 执行 try 子 句 */ 
14: result = crb execute statement list (inter, enyv, 
下 statement->u.try s.try block 
16s ->statement list); 
17: } else { 
18: /* 发 生 异常 时 的 处 理 。 首 先 恢复 crowbar 的 栈 和 jmp buf */ 
下 83 crb set stack pointer(inter, stack pointer backup); 
20 inter->current recovery environment = env backup; 
之 上 
22 if (statement->u.try s.catch block) { 
23: /* 执行 catch 子 句 */ 
24: CRB Value ex value; 
25 
26 ex value = inter->current exception; 
27 CRB push value (inter, &ex value); 
28 inter->current exception. type = CRB_ NULL VALUE 
29 
30 assign to variable(inter, env, statement->line number, 
沪 二 statement->u.try s.exception, &ex value); 
32: 
33: result = crb execute statement list(inter, enyv, 
34: statement->u.try s.catch block 
35 ->statement list); 
36 CRB shrink stack(inter, 1); 
37 } 
38 } 
39 inter->current recovery environment = env backup; 
40 if (statement->u.try s.finally block) { 
41 /* 执行 finally 子 句 */ 
42 crb execute statement list (inter, eny, 
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43 : statement->u.try s.finally block 
44: ->statement list); 

45: } 

46: if (!statement->u.try s.catch block 

47: && inter->current exception.type != CRB NULL VALUE) { 
48: /* 如 果 没 有 catch 子 句 的 话 ， 创 建新 的 throw 直接 抛 出 异常 */ 
49: longjmp (env backup.environment, LONGJMP ARG) ; 

50: } 

二 

52: return result; 

53: } 



































crowbar 使 用 自己 的 栈 计算 表达 式 ， 在 第 10 行 备份 了 这 个 栈 。 因 为 如 果 表 达 
式 执 行 到 深 人 处 时 发 生 了 异常 的 话 ， 就 必须 要 抛弃 那个 时 候 的 栈 。 

另外 ， 在 第 11 行使 用 变量 evn backup 进行 了 备份 ， 这 个 变量 的 类 型 
是 RecoveryEnvironment， 因 此 它 的 实体 只 包含 了 一 个 jmp_buf 的 结构 体 
( 这 里 特意 声明 了 一 个 结构 体 以 备 将 来 扩展 )。 





这 两 个 用 于 

















份 的 局 部 变量 被 放 在 了 C 的 栈 上 。 因 此 ， 没 有 catch 子 句 或 











从 catch 子 句 中 








再 throw 后 ， 无 论 返 回 到 任何 阶段 〈( 第 49 行 )， 都 需要 依次 从 





C 栈 上 的 备份 中 恢复 这 两 个 变量 。 

并 且 ， 无 论 从 try 子 句 中 调用 什么 阶段 的 函数 ， 如 果 在 深层 发 生 异 常 ， 是 不 
能 瞬间 返回 到 catch 中 ， 而 是 顺 着 函数 调用 的 顺序 返回 的 。 因 此 ， 在 调用 crowbar 
函数 的 时 候 也 会 执行 setjmp () 。 这 样 做 的 前 提 是 CRB_LocalEnvironment 在 
必要 的 时 候 能 够 开放 ( 基于 evalc 的 eval function call expression() )。 

















Seaekepo lineerabacrup orbagqetas tockpo lmneer (mete 


env_backup = 


mer UNE ee ov nv nmene, 


if (setjmp(inter->current recovery environment.environment) == 0) { 


domEvmnet onmeonll( mter localenv cnv cr Enmey 


} else { 


/* 如 果 在 函 








数 内 发 生 异 常 的 话 ， 抛 弃 LocalEnvironment */ 





drsposemlocamenvy monmente (mter 


crepetnastackonmeer (meter Cac emter nae 








田 





























/* 紧 接 着 调 


longjmp() */ 


longjmp (env backup.environment, LONGJMP RARG) ; 


} 


mee Seunrentlreeceovery nv nonment envy baerup, 


dusposenmlocalNenvy nonmene (meer 
另外， 在 代码 清单 9-9 的 第 47 行 检查 了 inter->current exception. 
type， 这 样 做 是 为 了 保证 它 保 存 的 是 “当前 的 异常 ”>， 以 便 在 throw 的 时 候 进行 
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设置 。 因 此 ， 它 会 在 catch 子 句 中 被 抛弃 (第 28 行 )， 并 在 catch 子 句 执行 (第 
33~35 行 ) 并 且 发 生 异 稼 的 时 候 被 重新 设置 。 

再 来 说 说 finally 子 句 , 一 旦 进入 了 try 子 句 就 “必须 ”要 执行 finally 
子 句 。 例 如 在 下 面 这 段 代 码 中 使 用 break 跳出 了 for 语句 ， 即 使 是 在 这 种 情况 
下 ， 在 跳出 循环 之 前 也 必须 要 执行 finally 子 句 。 




















Ren 
Ey 
break; 
} finally { 
# 即使 进行 了 break， 这 里 的 代码 也 会 执行 
} 
b 


在 crowbar 中 出 现 了 break 等 跳 转 语句 时 ， 将 把 语句 的 执行 结果 ( CRB_ 
StatementResult ) 作为 返回 值 返回 给 调用 者 (请 参考 3.3.6 节 )。 在 代码 清 
单 9-9 中 ,无 论 try 子 句 得 到 怎样 的 执行 结果 都 会 执行 finally 子 句 ， 以 保证 
“必须 执行 finally”。 但 是 ， 男 一 方面 ， 如 果 try 子 句 中 进行 了 break 的 话 ， 
在 finally 执行 结束 后 还 是 要 执行 break。 还 有 ， 如 果 在 try 中 return 3;、 
在 finally 中 有 return 5; 的 时 候 ， 到 底 要 返回 哪个 才 对 呢 ? 在 Java 中 ， 如 果 
在 finally 子 句 中 写 了 return、break 等 控制 语句 的 话 ，javac 会 发 出 警告 。 
C# 中 则 会 直接 发 生 编 译 错 误 。 

在 crowbar 中 ，try 语句 最 终 执行 结果 的 原则 是 ， 无 论 finally 中 是 什么 结果 
都 会 被 忽略 ， 要 优先 使 用 try 或 者 catch 子 句 的 执行 结果 。 


补充 知识 Java 和 C# 异常 处 理 的 不 同 


关于 Java 和 C# 异常 处 理 的 不 同 点 ， 通 过 搜索 引擎 搜索 “Java C# 异常 不 同 ” 这 
样 的 关键 字 就 能 得 到 “有 无 检查 异常 ”的 相关 资料 。 

这 点 会 在 9.2.6 节 的 补充 知识 中 做 介绍 。 除 此 之 外 ，C# 的 异常 和 Java 的 异常 还 
有 很 多 区 别 ，Java 的 程序 员 如 果 使 用 C# 的 话 会 很 容易 上 手 ( 反 过 来 就 不 一 定 了 )。 
首先 ， 在 Java 中 ， 异 常 的 栈 轨迹 创建 于 “异常 new 出 来 的 时 候 "。 比 如 下 面 这 段 
程序 中 ， 异 常 一 被 new 出 来 后 马上 就 输出 栈 轨 迹 ， 此 时 可 以 把 当前 的 栈 轨迹 完全 输出 
出 来 。 

pxeeptlon le new execeotlon(), 

ESEaCISTREaEE 


多 数 人 可 能 会 在 调试 的 时 候 编 写 这 样 的 代码 。 与 此 相对 在 C# 中 ， 栈 轨迹 在 
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“throw 之 后 返回 到 方法 调用 的 层级 的 时 候 ” 被 依次 组 装 起 来 的 。 可 以 通过 代码 清 




















9-10 的 示例 代码 来 确认 这 个 问题 。 


代码 清单 9-10 



















































































































































































C# 的 异常 
1: using System:; 
2: using System.Collections .Generic:; 
3: using System.Text:; 
4: 
5: namespace ExceptionTest 
6% { 
23 class Program 
8:; { 
9 : static void Sub (int count) 
10 : { 
的 本 if (count ss 0) 
让 { 
13: throw new Exception(); 
14: } 
LS try 
16: { 
17: Sub (count - 1); 
18; } 
9 catch (Exception e) 
20: { 
21: // 进行 递归 调用 使 异常 发 生 在 较 深 的 层级 
22: // 每 一 个 层级 catch 到 异常 后 ， 再 继续 throwo 
23 : // 在 每 次 catch 的 时 候 ， 栈 轨迹 都 会 随 之 增长 ， 从 这 点 就 可 以 看 出 
24: // C# 中 异常 的 栈 轨 迹 ， 是 在 返回 到 调用 者 的 层级 后 
25: // 再 进行 组 装 的 。 
26: Console.WriteLine ("**xxxxxx*** COUNt.." + COUNt + www 炙 炎炎 火炎 大 员 ) > 
和 Console.Write(e.ToString()); 
28: throw; 
29: } 
30: } 
汪汪 入 
32: static void main (string[] args) 
33: { 
34: CE 
35: { 
36 : Sub (10) ; 
37: } 
38: catch (Exception e) 
39: { 
40 : Console .WriteLine("** 炎 火炎 火炎 火炎 火 下 了 nal 天火 类 炎炎 火炎 炎炎 是 ) 》 
41: Console.Writel(e.ToString()); 
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42: } 

43: } 

44: } 

45: } 

说 到 这 样 做 的 理由 ， 比 如 创建 异常 在 某 个 工具 类 中 的 时 候 ， 如 果 栈 轨迹 中 只 包含 了 
这 个 工具 类 的 方法 的 话 ， 就 会 让 调试 人 员 摸 不 着 头脑 。 实 际 上 ，crowbar 也 采用 Java 
的 方式 ( 见 代码 清单 9-7 )， 为 了 从 栈 轨 迹 中 删除 第 4 行 的 create() 方法 ， 不 得 不 在 
第 6 行 做 那样 奇怪 的 事情 。 
在 C# 中 ， 调 试 时 如 果 想 看 一 下 栈 轨迹 的 话 ， 可 以 使 用 Environment .Stack- 
Traceo 


另外 ， 在 Java 中 被 catch 到 的 异常 如 果 想 










































































































































































上 


次 抛 出 的 话 ， 要 编写 下 面 这 段 代码 : 




















} catch (HogeException e) { 









































Bnrmeowee 
} 
但 是 ， 在 C# 中 throw 的 时 候 ， 会 重新 设置 e 中 的 栈 轨迹 ， 从 而 在 C# 中 只 需要 这 
样 写 就 可 以 了 : 
throw; 
































C# 中 增加 了 “将 在 catch 子 句 中 捕获 的 异常 直接 抛 出 ”的 语法 。 
在 crowbar 中 既然 采用 了 Java 的 方式 ， 那 么 在 Diksam 中 让 我 们 来 试 试看 C# 的 
方式 。 具 体 的 实现 方式 将 在 下 一 节 中 介绍 。 


9.2.3 为 Diksam 引入 异常 


说 完了 crowbar， 本 节 就 要 为 Diksam 引入 异常 的 概念 了 。 
下 面 就 为 Diksam 引入 与 Java 和 C# 相同 的 异常 处 理 机 制 。 
























































Cy 
We 
和 } catch (HogeException e) { 
实际 上 是 可 以 做 出 相似 /* 与 HogeException 对 应 的 catch 子 句 */ 





的 异常 层级 结构 的 ， 即 


使 使 用 crowbar 的 功能 } catch (PiyoException e) { 


/* 与 PiyogException 对 应 的 catch 子 句 */ 



























































做 出 了 这 样 一 个 层级 结 | 

构 ， 从 语言 的 设计 层次 } finally { 

来 讲 并 没有 特别 支持 这 /* ala ll ll 可 这 里 的 代码 必然 会 行 */ 

种 方式 ， 而 对 我 本 人 来 } 

说 也 很 抗拒 这 种 上 下 相 a es 

洲 的 事情 。 由 于 crowbar 中 没有 类 的 概念 *， 因 此 只 能 编写 一 个 catch 子 句 。 但 是 在 




















“ 讽 : 吕 
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Diksam 中 与 Java 相同 ， 可 以 编写 与 各 种 异常 类 对 应 的 catch 子 句 。 
男 外 ， 和 Java、C# 等 相同 的 地 方 是 ， 也 可 以 通过 throw 抛 出 异常 。 

















throw e; // throw 异常 e 


crowbar 使 用 了 Java 的 风格 ， 即 在 new 异常 的 时 候 创 建 栈 轨迹 ， 因 此 在 
Diksam 中 要 使 用 C# 的 风格 ， 即 在 throw 的 时 候 创 建 栈 轨迹 (请 参考 9.2.2 节 的 
补充 知识 )。 所 以 ， 在 catch 子 句 中 抛 出 异常 的 时 候 可 以 只 写 throw;。 
另外 ， 和 Java、C# 等 相同 的 可 以 被 throw 和 catch 的 只 有 Exception 的 
子 类 a 
于 Exception 是 在 
Diksam 中 创建 的 类 ， et 


文 后 


这 里 果然 还 是 做 了 “上 |， ee 
ss ”补充 知识 。 catch 的 编写 方法 
























































如 前 面 所 述 ， 在 crowbar 中 只 能 编写 一 个 catch 子 句 ， 但 是 在 Diksam 中 就 可 以 
编写 与 各 种 异常 类 对 应 的 catch 子 句 。“ 可 以 编写 ”看 上 去 是 一 个 很 方便 的 功能 ， 但 是 
实际 使 用 起 来 就 不 是 那么 方便 了 。 
例如 ， 异 常 A 和 异常 B 想 要 进行 同样 的 处 理 ， 但 是 这 种 时 候 根 据 Java 的 风格 ， 就 
只 能 把 同样 的 catch 子 句 编写 多 次 了 。 这 样 一 来 就 违反 了 “同样 的 代码 不 能 在 多 个 位 
置 编 写 ” 的 编码 大 原则 。 
当然 ， 如 果 异 常 A 和 异常 B 用 同样 的 超 类 的 话 ， 可 以 通过 catch 超 类 的 方式 达到 目 
的 ， 但 是 异常 的 层级 通常 都 是 从 提供 异常 类 的 角度 、 而 不 是 从 异常 使 用 者 的 角度 出 发 的 。 
假设 “ 想 要 对 异常 A 和 异常 B 进行 同样 的 处 理 ” 的 时 候 ， 就 必须 要 简单 地 描述 OR 






















































































































































































































































































































































































条 件 ， 只 有 这 样 才 可 以 考虑 在 catch 子 句 中 用 逗号 分 隔 的 方式 指定 要 处 理 的 类 ( 先 忽 
略 如 何 将 异常 赋值 给 变量 的 事情 )。 还 有 一 种 情况 ， 那 就 是 “异常 A 和 异常 B 使 用 同 








































































































样 的 处 理 方式 ， 异 常 C 使 用 另外 的 处 理 方 式 ， 但 无 论 是 什么 样 的 异常 ， 都 会 有 输出 
志 的 通用 处 理 "。 基 于 上 面 这 些 考 虑 ， 我 想 还 是 像 下 面 这 样 ， 在 一 个 catch 子 句 中 介 
用 if 语句 来 判断 可 能 更 好 。 
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try{ 


} catch (Exception e) { 
// 通用 处 理 
if (e instanceof A || e instanceof B) { 

// 处 理 异 常 A 或 者 是 异常 B 
} elsif (e instanceof C) { 
// 处 理 异常 C 





























} else { 
// 预想 外 的 异常 向 上 throw 
throw; 

) 
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但 这 个 方法 要 想 处 理发 生 的 意料 之 外 的 异常 ， 就 必须 要 在 if 语句 的 else 子 句 中 
继续 throw 异常 。 这 段 代 码 非常 容易 被 忘记 。 
重要 的 是 ， 使 用 者 既 可 以 像 Java 那样 编写 多 个 catch 子 句 ， 也 可 以 像 上 面 的 代 
码 那样 编写 一 个 catch 子 句 ， 但 如 果 只 写 一 个 catch 子 句 的 话 ， 编 码 方式 就 不 能 像 
Java 一 样 了 。 这 意味 着 给 了 使 用 者 更 多 的 选择 ， 在 这 点 上 Diksam 和 Java 是 一 致 的 。 



























































9.2.4 异常 的 数据 结构 


try 语句 中 包含 了 try、catch 和 finally 三 个 子 句 。 月 


表示 的 话 如 下 所 示 。 


7 
wesedsA 
了 二 


Seruceal 




















yj 但 





classnindex, 





有 DVM_Try 结构 体 


了 catch 的 类 的 索引 值 */ 

















catel 





le Neewle “SOR 
em 
} DVM CatchClause; 


/Eey 可 
typedef struct { 


始 位 
/* catch 结束 位 置 的 PC */ 


的 PC ( 程序 计数 器 ) 








int try_start _pc; /* try 开始 位 置 的 PC */ 
in try_end pc; /* try 结束 位 置 的 PC */ 
A catch count; /* catch 子 句 的 数量 */ 
DVM CatchClause *catch clause; /* catch 子 句 的 可 变 长 数组 */ 
int finally_start _pc; /* finally 开始 位 置 的 PC */ 
int finally end pc; /* finally 结束 位 置 的 PC */ 

| DAM Le 


在 DVM_Try 结构 体 的 可 变 长 数组 
另外 ， 由 于 顶层 结构 和 函数 ( 的 程序 块 ) 增加 了 一 些 附加 信息 ， 因 此 这 








取 了 出 来 。 





EH 


序 块 ” 也 作为 结构 体 


typedef struct { 











Pp 可 以 添加 顶层 结构 和 DVM_Function。 
文 次 把 “ 程 








ne Gete 27 

DVM Byte "Ode 

lolis, Ime numoe re 

DVM LineNumber *line number; 

aie try size; /* try 子 句 的 数量 */ 

DVM Try *try; /* try 子 句 的 可 变 长 数组 */ 
oli neeadustacrys es 


} DVM CodeBlock; 


虽然 除了 新 增 的 try 子 句 的 相 
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Executable (顶层 结构 部 分 ) 和 DVM Function (各 函数 部 分 ) 中 出 现 过 了 ， 
但 这 里 还 是 应 该 把 它 作 为 单独 的 结构 体 区 分 出 来 。 DVM_Try 中 的 数组 (在 
generate.c 中 ) 在 后 续 人 遍历 ( post-order traversal ) 分 析 树 时 ， 每 当 遇 到 try 语 
名 的 时 候 就 在 数组 末尾 增加 元 素 (generate try statement () )。 因 此 ， 
这 个 数组 是 按照 程序 层级 的 深度 来 排列 try 语句 的 ( 越 深层 级 的 try 就 越 被 排 
在 前 面 )。 

在 发 生 异 常 的 时 候 ， 首 先 将 这 个 异常 设置 到 DVM_ViztualMachine 结构 体 
的 current exception 成 员 (新 增 ) 中 ,再 将 DVM 设置 为 “异常 状态 ”。 

基于 以 上 介绍 ， 我 们 以 从 0 开始 按 顺 序 扫描 DVM_Try 的 数组 ， 寻 找 包 含 这 
个 位 置 的 程序 计数 器 的 try 语句。 结果 有 以 下 几 种 情况 。 

1. 异常 发 生 在 try 语 句 的 try 子 句 中 
在 这 种 情况 下 ， 首 先 要 寻找 捕捉 已 发 生 异 常 的 catch 子 句 ， 如 果 发 现 了 ， 就 解除 
异常 状态 并 将 控制 权 移交 给 相应 的 catch 子 句 。 

如 果 没 有 与 异常 对 应 的 catch 子 句 ， 就 把 控制 权 移交 给 Ejnally 子 句 。 
2. 异常 发 生 在 try 语 句 的 catch 子 句 中 
在 这 种 情况 中 ， 不 解除 异常 状态 并 将 控制 权 移 交 给 fijnally 子 句 。 
3. 异常 发 生 在 try 语 句 的 Einal1y 子 句 中 
在 这 种 情况 中 ， 和 4. 的 处 理 方式 相同 。 
4. 异常 发 生 在 try 语 句 之 外 
强制 从 当前 函数 中 返回 ， 并 试图 从 基于 当前 位 置 的 DVM_TYry 中 寻找 包含 当前 程 请 
计数 器 的 try 语 句 ， 以 此 方式 修正 异常 。 
Diksam 的 编译 为 了 处 理 起 来 简单 ， 不 论 try 语句 中 是 否 有 finally 子 句 ， 
都 将 为 它 创建 一 个 fijnally。 这 个 将 在 后 面 介绍 。 
这 个 处 理 的 代码 如 代码 清单 9-11 所 示 。 第 14 行 调用 的 函数 throw_in_ 
try() ,会 在 上 述 1、2 的 情况 下 返回 真 。 
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代码 清单 9-11 1: static DVM Boolean 
发 生 异 常 时 的 处 理 2: do throw(DVM VirtualMachine *dvm, 
3 Function **fune p; DVM Byte **code pb; int *code size DD: 
int *pe pb; 
4: int *base p, ExecutableEntry **ee p, DVM FExecutable 
*%EXE Dy 
5 DVM ObjectRef *exception) 
6: { 
J DVM Boolean in try; 
Bs 
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9: dvm->current exception = *exception; 

10s 

Ll: EE (5 

于 /* 当 异 常 发 生 在 try 语句 的 try 子 句 或 catch 子 句 的 时 候 ， 

13: throw_in_ try 函数 会 将 设置 跳 转 地 址 并 返回 真 。*/ 

14: in try = throw in try(dvm, *exe p, *ee p, *func p, pc _p, 
LS &dvm->stack.stack pointer, *base p); 
16: i (Ln: try) 

17: break; 

18 

19: if (*func p) { 

20: /* 当 异 常 发 生 在 finally 子 句 或 者 try 语句 外 的 时 候 ， 

21: 把 发 生 异 常 的 位 置 记录 到 栈 轨迹 中 并 强制 返 下 

22 : 在 返回 之 后 ， 将 再 次 使 用 throw _ in try 进行 修复 。*/ 

23 : adqd stack trace(ldvm, *exe p, *func P，*pc _p); 

24: /* do_return 在 要 程序 返回 原生 函数 时 返回 真 ， 这 里 不 做 详细 说 明 。* / 
25 : if(do return(dvm, func p, code p, code size p, pc _Pp， 
26: base p, ee p, exe p)){ 

| return DVM_ TRUEB; 

28: } 

29 : } else { 

30: /* 在 返回 到 顶层 结构 的 时 候 将 栈 轨 迹 输出 并 终止 程序 的 执行 。 */ 
SL int func index 

32: = dvm search function (dvm, 

333 DVM DIKSAM DEFAULT T PACKAGE, 
34: DIKSAM PRINT STACK TRACE FUNC); 
35: adqd stack trace(ldvm, *exe p, *func p, *pc _p); 

S63 

有 人 人 invoke diksam function from native (Qvm，dqvm->function [func index], 
38 : dvm->current exception, NULL); 
39 : exit (1)y 

40: } 

41: } 

42: return DVM FALSE; 

43: } 











9.2.5 | 异常 处 理 时 生成 的 字 节 码 


首先 ， 在 使 用 者 编号 了 像 throw e; 这 样 的 代码 在 抛 出 异常 的 时 候 ， 这 里 将 
会 创建 throw 指令 。 编 译 骨 会 将 眼前 的 e 入 栈 ， 因 此 这 个 指令 会 抛 出 保存 在 栈 
顶 的 异常 。 

Diksam 的 异常 与 C# 风格 相似 ， 只 需要 写 throw; 就 可 以 将 当前 catch 的 
异常 抛 出 去 (请 参考 9.22 节 的 补充 知识 )。 在 这 个 时 候 会 创建 指令 rethrow, 但 
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这 个 机 制 模仿 了 JVM 
的 指令 jsr、return,， 
但 是 在 现在 的 Java 























中 并 没有 使 


将 finally 子 句 的 代 








码 完全 展开 。 





在 Sun 的 错误 数据 库 
( Bug Database ) 中 的 





， 而 是 








4381996 号 错误 "使 





是 在 rethrow 指令 中 依旧 不 变 地 抛 出 保存 在 栈 项 的 异常 (编译 占 会 悄悄 地 把 
在 catch 子 句 中 定义 的 变量 入 栈 )。 和 throw 动作 不 同 的 只 是 不 会 重新 设置 栈 
轨迹 。 

try 子 句 通常 会 生成 下 面 这 样 的 字 节 码 (为 了 方便 说 明 ， 使 用 了 仿真 代码 ， 
并 在 左边 添加 了 行 号 )。 


























1: # 在 这 里 加 入 try 子 句 的 指令 

2: go finally 14 

Smels 

4: # 第 一 个 catch 子 句 

5: pop_stack object n # 将 异常 赋值 给 变量 
6: # 这 里 插入 catch 子 句 的 指令 

了 EL 

8: jump 16 

Os 1 Bie caeen sq 

10: pop_stack object n # 将 异常 赋值 给 变量 
11: # 这 里 插入 catch 子 句 的 指令 

lo aonfinally 4 

oe oa Li 

14: # 这 里 插入 finally 子 句 的 指令 

ES 人 Ye 





16: # 之 后 的 处 理 
首先 ， 请 看 一 下 每 个 catch 子 名 开头 的 pop_stack object。 这 是 为 了 在 
下 面 这 种 情况 时 ， 把 异常 的 引用 赋值 给 变量 e。 


} catch (HogeException e) { 


























} 

也 就 是 说 ，DVM 将 异常 入 栈 为 栈 顶 并 将 控制 权 移交 给 各 catch 子 句 。 当 
然 ，e 作为 函数 外 的 变量 被 pop_static_object 创建 。 

在 try 子 句 、catch 子 句 的 末尾 都 要 生成 go_finally 指令 。 这 意味 着 通 
过 在 一 个 函数 内 部 调用 子 例 程 的 方式 来 调用 finally*。 

乍 看 之 下 ， 我 认为 不 需要 特意 增加 这 个 指令 ， 只 要 跳 转 到 第 14 行 就 可 
以 了 。 但 是 ， 正 如 9.2.2 节 中 写 到 的 ， 即 使 在 try 子 句 中 进行 了 break 或 
者 return, finally 子 句 也 必然 会 执行 。 此 ， 如 果 try 子 句 中 包含 





原来 的 方式 时 ， 即 使 是 
正确 的 代码 ， 验 证 器 也 





会 报错 。 


六 











= 








了 break ,编译 器 也 会 在 break 前 面 输出 go_finally 指令 。 执行 finally 子 
句 后 ， 如 果 没 有 异常 状态 的 话 ， 就 会 执行 finally_eng 指令 返回 到 原来 的 位 

















中 地址: http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=4381996。 一 一 译 者 注 
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置 。 如 果 调 用 了 finally_end 后 不 能 返回 到 原来 的 位 置 的 话 ， 就 会 执行 和 再 次 
抛 出 异常 时 同样 的 动作 。 

go_finally 会 将 返回 的 目的 地 的 pc 入 栈 。 之 所 以 必须 要 使 用 栈 是 因为 
在 finally 中 也 可 以 编写 try 语句 。 





















































Java 具有 受 查 异 常 的 功能 。 这 是 一 种 在 方法 声明 时 对 方法 可 能 抛 出 的 异常 
进行 声明 的 功能 (下 面 这 段 代 码 就 表明 了 “这 个 方法 有 抛 出 HogeException 
和 PiyoException 的 可 能 ”)。 


void hoge() throws HogeException, PiyoException { 


} 

这 样 一 来 ， 在 调用 上 面 的 hoge () 方法 的 时 候 ， 对 于 该 方法 的 调用 者 来 说 ， 
要 么 catch 所 有 已 经 被 声明 的 异常 ， 要 么 自己 也 通过 throws 抛 出 这 些 异常 ， 
将 处 理 异常 的 任务 交 给 自己 的 调用 者 。 如 果 你 什么 都 不 做 ， 就 会 在 编译 时 报错 
(除非 是 Error 或 者 RuntimeException 的 子 类 )。Java 利用 这 个 功能 保证 应 
该 处 理 的 异常 已 经 全 都 被 处 理 掉 ( 至 少 是 以 此 为 目标 )。 

正如 后 面 会 介绍 到 的 ， 对 于 这 个 功能 也 有 一 些 异议 ,但 我 认为 这 是 一 个 重要 
的 功能 ， 因 此 在 Diksam 中 也 进行 了 实现 。 

Diksam 中 受 查 异常 的 设计 和 Java 相同 。 

首先 ， 要 让 函数 和 方法 能 够 描述 throws 子 句 。 

// 为 函数 添加 throws 


void func () throws HogeException, PiyoException { 
























































) 

在 上 述 例子 中 ， 由 于 func () 已 经 声明 了 它 可 能 会 发 生 0 和 
PiyoException, We 数 内 发 生 了 上 述 两 个 异常 之 外 的 异常 ， 并 且 
又 没有 catch 的 话 ， 就 会 发 生 编译 错误 。 

但 是 ， 像 NullPointerException 这 样 的 在 程序 各 处 都 会 发 生 的 异 
党 应 该 被 另行 处 理 。 在 Diksam 中 异常 的 层级 有 三 个 ， 它 们 分 别 是 BugExce 
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ption、RuntimeException 和 ApplicationException。 其中， 只 


有 RApplicationException 是 受 查 异常 检查 的 对 象 ( 图 9-8 )。 








Diksam 的 异常 层级 











BugException| |RuntimeException| |ApplicationException 


只 要 没有 程序 错误 ”程序 不 能 预期 的 异常 ”应 该 被 程序 预期 到 的 异常 
就 不 会 发 生 的 异常 
例如 ， 引 用 了 null 的 时 候 会 发 生 Nul1PointerException， 或 者 当 访 问 
的 元 素 超 出 了 数组 的 返回 时 会 发 生 ArtrayIndqexOoutOofBoundsException， 这 
”此 异常 在 Diksam 中 都 被 归 类 为 BugException。 这 是 因为 这 些 异常 在 调试 结束 后 
半 训 入 六 他 扩 入 村 生 的 正式 应 用 程序 中 是 不 应 该 发 生 的 (我 是 这 么 认为 的 ) 因此 ，BugException 不 
Di 们 下 只 帮 应 该 被 catch。 因 为 如 果 这 么 做 就 相当 于 在 “掩盖 程序 错误 ”。 


在 walloc0 中 与 此 相对 ， 即 使 没有 程序 错误 也 可 能 发 生 RuntimeException， 这 是 由 于 
进行 exit 和 时 作 


才 会 抽出 异常，MEM_ 在 写 程序 的 时 候 只 考虑 了 一 般 的 情况 ， 没 有 考虑 周全 ， 从 而 发 生 了 (我 是 这 么 认 
和 为 的 ) 异常 。 在 Diksam 中 ,整数 被 0 除 也 被 归 为 这 类 异常 *。 这 样 的 异常 应 该 在 
调用 的 层级 上 被 catch 并 进行 适当 地 处 理 。 
ApplicationException 的 发 生 是 被 充分 预期 的 。 在 Diksam 中 ， 像 
不 可 思议 的 是 Java 把 NumberFormatBException 这 样 的 异常 被 归 入 此 类 *。 像 这 样 的 异常 一 般 会 在 
这 个 异常 归 类 为 Ran- ”发 生 的 地 方 立即 由 应 用 程序 做 适当 地 处 理 。 
0 话说 回来 ， 由 于 在 Diksam 中 BugException“ 不 应 该 被 catch”， 因 此 ， 
还 是 “一 旦 catch 了 BugException 就 会 发 生 编译 错误 ”容易 一 点 。 但 是 现在 之 
所 以 没有 这 么 做 ， 是 因为 考虑 到 了 像 Servlet 和 Applet 之 类 的 在 浏览 器 中 运行 的 程 
序 ， 即 使 其 中 一 个 Servlet 或 者 Applet 中 出 现 了 程序 错误 也 不 应 该 导致 整个 程序 的 
骨 溃 。 但 是 ， 在 将 来 也 可 能 会 引入 像 pragma 这 样 的 功能 ， 也 许 到 了 那个 时 候 ， 除 
了 特殊 的 程序 之 外 ,再 catch 了 BugException 的 话 ， 编 译 就 要 报错 了 。 
受 查 异常 的 实现 在 fix tree.c 中 进行 。 
Diksam 编译 器 (在 fix treec 中 ) 会 对 递归 分 析 树 “确认 ”( 请 参考 6.3.4 
节 ) 与 此 同时 ， 也 会 进行 受 查 异常 的 检查 。 
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% 


详细 来 说 就 是 ， 





这 这 里 涵 


盖 了 在 catch 子 句 或 
finally 子 句 中 发 生 的 
异常 ( 含 通过 throw; 
































再 次 抛 出 的 Exception )。 


在 [12] 中 也 举 出 了 诸如 
“异常 过 度 包 装 ” 之 类 
的 缺点 ， 也 算是 表达 了 








对 这 个 功能 的 不 江 


尘 。 


在 递归 扫描 分 析 树 的 时 候 ， 


在 递归 的 路 径 上 (也 就 是 越 深 
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Ce 


名 或 表达 式 下 级 可 能 会 发 生 的 异常 列表 。 此 时 ， 在 try 子 句 中 发 生 的 异常 ， 除 了 
a 


一 来 ， 在 函数 内 发 生 异 常 的 时 候 





， 没有 声明 throws 的 就 会 导致 编译 错误 。 


补充 知识 。 受 查 异常 的 是 与 非 









































此 很 多 地 方 都 模仿 了 Java， 所 
作者 安 德 斯 .海尔 其 





























The Trouble with Checked Exceptions 











在 Java 中 有 受 查 异常 ， 但 是 在 C# 中 没有 。C# 是 晚 于 Java 面世 的 编程 语言 ， 因 





























义 可 以 断定 这 


I 





个 功能 是 有 意 被 剔除 的 。 关 了 


























@ 方法 升级 的 时 候 throws 子 句 中 的 
用 者 。 实 际 上 ， 在 很 多 情况 下 ， 调 





别处 理 。 











异常 可 能 也 会 随 之 增加 ， 这 样 就 会 时 
用 者 并 不 会 关心 异常 的 种 类 ， 也 不 














这 点 ，C# 的 


伯 格 ( Anders Hejlsberg ) 例 举 了 下 面 两 个 理由 ( 应 笔者 邀请 )。 











影响 所 有 的 使 

















会 对 它们 做 个 




















e 在 扩展 性 上 存在 问题 。 受 
































到 5 个 子 系统 的 系统 时 ， 每 
的 时 候 就 不 得 不 在 throws 后 面 写 上 很 多 的 异常 。 




















查 异 常 在 很 小 的 程序 中 可 以 顺利 运行 ， 但 是 在 构建 有 4 个 














个 子 系统 又 返回 4~10 种 异常 的 话 ， 在 多 




















另外 ， 在 下 一 页 中 ， 在 上 面 











个 子 系统 集成 


























这 些 理由 的 基础 上 又 追加 了 以 下 理 








这 








也 是 应 生 笔 者 











邀请 )。 
《Java 理论 与 实践 : 关于 异常 的 





争论 要 检查 ， 




















还 是 不 要 检查 》3 

















e throws 子 句 暴露 了 实现 的 详细 内 容 。 如 果 在 “搜索 用 户 ” 方 法 的 throws 中 有 一 


个 SOLException， 这 可 不 是 一 件 好 事 





















































oO 








e ( 只 要 是 有 受 查 异常 ) 使 用 者 编写 了 空 的 catch 子 句 ， 异 常 也 会 被 当做 处 理 掉 了 。 
































上 面 说 了 这 么 多 的 问题 ， 


















































异常 o 从 而 ， 如 果 发 生 异 常 的 原 原因 十 SQLException 的 话 ， 应 该 抛 出 
保存 了 SQLException 的 NoSuc 
个 机 制 ， 在 Java1.4 中 被 引入 ，C# 














hUserExceptiono 





二 实 可 以 通过 异常 中 包装 的 方 式 来 应 对 。 以 





























“搜索 用 户 方 





法 ”为 例 ， 应 该 抛 出 像 NoSsuchUserException 这 样 的 、 对 于 当前 方法 





层级 有 意义 的 






































我 认为 受 查 异常 也 不 是 特别 “ 坏 ”的 功能 *。 


















































个 以 成 员 形 式 


开始 也 有 这 样 的 功能 。 以 此 为 前 提 的 话 ， 


另外 ， 在 受 查 异常 中 最 让 人 反感 的 就 是 ， 所 有 方法 都 只 写 一 句 throws Excep- 





tion。 对 于 这 点 ， 虽 然 编 程 语言 











支持 这 么 做 ， 但 是 在 不 需要 使 用 受 查 
























































才 
































不 用 为 好 。 至 于 在 Diksam 中 如 何 使 用 ， 就 交 给 使 用 者 来 选择 了 。 
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常 的 时 候 还 是 
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补充 知识 。 异常 处 理 本 身 的 是 与 非 


既然 说 到 了 受 查 异常 的 是 与 非 ， 让 我 们 再 来 看 看 关于 异常 处 理 的 两 派 的 论调 。 
在 一 本 叫 作 Joel on Software ( 很 有 名 ) 的 书 中 ， 作 者 Joel Spolsky 关于 异常 的 论 
述 如 下 ( 拙 译 ) : 




































































Exceptions™™ 


e 在 源 代 码 中 很 难看 到 异常 。 因 为 不 知道 哪里 会 发 生 异 常 ， 所 以 即使 很 续 密 地 检查 
了 代码 ， 还 是 很 难 发 现 其 中 的 错误 。 
e 异常 赋予 了 程序 多 个 “出 口 "。 在 编写 正确 的 代码 中 ， 程 序 一 定 能 够 掌握 执行 的 
路 径 ， 但 是 加 入 了 异常 后 这 件 事 就 办 不 到 了 。 
Windows 的 开发 者 Raymond Chen 把 异常 和 早先 在 返回 值 中 返回 错误 编码 的 方式 
做 了 比较 ， 请 见 表 9-1 和 表 9-2"“( 拙 译 )。 






























































错误 编码 和 异常 的 比较 
很 简单 难 很 难 
全 使 用 错误 编码 编写 出 不 

使 用 错误 编码 编写 出 不 好 | @ 使 用 错误 编码 编写 出 良好 


的 代码 儒 用 异常 编写 出 的 代码 
和 代 | 的 代码 @1 常 编写 出 良好 的 代码 
@ 使 用 异常 编写 出 不 好 的 代码 

















































































































































































































































































































表 9-2 
错误 编码 和 异常 的 比较 2 
很 简单 难 很 难 
@ 认 识 到 使 用 异常 编写 出 了 
@ 认 识 到 使 用 错误 编码 编写 星 涩 难 懂 的 代码 
出 了 聊 涩 难 慌 的 代码 @ 使 用 异常 编写 出 来 的 ， 能 
@ 认 识 到 使 用 错误 编码 编写 
@ 使 用 错误 编码 编写 的 ， 能 edi 够 分 辨 出 不 好 的 代码 和 良 
够 分 辨 出 不 好 的 代码 和 良 | 好 的 代码 
好 的 代码 @ 认 识 到 使 用 异常 编写 出 了 
通顺 易 懂 的 代码 








下 面 就 举 一 个 实际 的 例子 。 


NoOL Ey eone eraleNoG Ey reon( 

有 2 { 

SENocnmftynconlicon nw loc yeon 

4 neon ne = elan Ln la 

5 icon.Visible = true; 

6 DeoOn Leon nw eom(Geoer el oo reow. 
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实际 试 一 下 的 话 ， 
的 环境 中 没有 发 生 
特别 的 问题 。 








% 





在 我 
什么 


这 里 假设 node.chil- 


dren 的 值 为 null。 


% 








不 管 怎么 说 ， 利 











返 马 











值 进行 手工 处 理 的 
是 行 不 通 的 。 之 所 











方式 
以 这 





么 说 是 因为 ， 我 不 相 











信人 类 ( 当然 包括 
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己 )o 


序 通过 一 个 可 执行 文件 就 可 以 运行 。 任 何 一 种 语言 ， 
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meturn icon, 
8 } 
这 段 程序 本 来 应 该 将 第 5 行 和 第 6 行 反 过 来 写 。 这 是 因为 在 图 标 创 建 失败 的 时 候 ， 
第 6 行 会 发 生 异 常 ， 此 时 就 没有 必要 把 icon.Visible 设置 为 true 了 *。 
可 能 上 述 这 个 Windows 编程 的 经 验 之 谈 不 太 好 理解 ， 我 要 
呢 ) 举 一 个 其 他 的 例子 。 在 构建 树 结构 的 时 候 ， 给 父 增加 子 的 代码 。 
node.children = new Node[5]; 
(ES 
node.children [i] 






















































































举 的 话 还 有 很 多 


























GY | 


= new Node(); 


} 


























在 这 段 代 码 中 ， 如 果 前 三 次 循环 都 正常 地 执行 、 第 四 次 的 时 候 发 生 了 异常 的 话 ， 数 
组 node .children 就 会 从 中 间 开 始 变 成 null1。 从 数据 结构 上 讲 ， 这 种 情况 大 多 是 不 
被 允许 的 。 在 这 种 情况 下 ， 即 便 是 在 上 层 的 某 处 捕获 到 了 异常 也 很 难 修复 这 个 错误 。 为 
了 避免 这 种 情况 的 发 生 ， 应 该 像 下 面 这 样 编写 代码 *。 

Node[] nodeArray = new Nodel[5]; 
(0 
nodeArray [i] 














































































































下 3 


= new Node () ; 


RS = nodeArray; 
但 是 ， 如 何 能 够 在 程序 的 所 有 地 方 都 防止 这 样 的 错误 发 生 呢 ? 
结果 ， 话 题 还 是 回 到 是 不 是 应 该 存在 异常 处 理 机 制 的 问题 上 。 当 然 ， 完 美的 异常 处 
理 是 非常 困难 的 。 但 是 ， 现 实 中 在 对 信任 关系 的 要 求 没 有 那么 严格 ， 使 用 异常 处 理 还 可 
以 准确 地 将 错误 传递 给 上 层 的 情况 下 ， 我 认为 异常 处 理 机 制 还 是 有 必要 的 “。 
对 于 编写 一 个 将 许多 数据 搜集 起 来 并 每 日 打印 一 次 的 小 脚本 来 说 ， 异 常 可 真是 
个 好 东西 ， 它 可 以 忽略 掉 所 有 会 引起 问题 的 地 方 。 我 非常 喜欢 做 的 就 是 ， 利 用 
try/catch 整理 程序 ， 并 在 发 生 异 常 的 时 候 将 问题 通过 邮件 发 给 我 。 但 是 异 
常 只 适合 一 些 粗略 的 工作 或 者 脚本 ， 并 不 适合 关键 性 的 任务 和 与 维持 生命 相关 
的 程序 。 假 如 在 操作 系统 、 核 能 发 电 或 者 心脏 手术 中 使 用 的 高 速 旋转 骨 锯 的 控 
制 软 件 中 使 用 异常 的 话 ， 是 相当 危险 的 事情 。 


一 一 Joel Spolsky《 软 件 随想 录 : 程序 员 部 落 酋长 Joe| 谈 软 件 》" 
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医 构建 县 本 


在 3.3.5 节 中 我 们 已 经 接触 过 了 ， 我 认为 编程 语言 的 处 理 需 应 该 尽 可 能 让 程 
在 其 制作 的 初期 都 是 个 不 成 
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六 








熟 的 语言 ， 因 此 不 可 能 在 一 开始 安装 的 时 候 就 让 人 有 所 期 待 。 另 外 ,在 别人 试用 
语言 的 时 候 ， 要 花费 很 多 时 间 进 行 高 门槛 的 安装 过 程 可 不 是 一 个 好 主意 。 

在 代码 清单 9-7 中 例 举 的 异常 类 程序 ， 在 crowbar 中 编写 的 话 就 非常 简单 了 ， 
但 是 要 在 C 语言 中 编写 的 话 我 想 可 能 要 花 不 少 的 功夫 。 因 此 ， 我 们 需要 一 种 用 
crowbar 编写 源 代码 ， 将 crowbar 本 身 打包 为 可 执行 文件 的 方法 。 

另外 ， 虽 然 Diksam 中 以 外 部 文件 的 形式 保存 着 现在 的 diksam.1lang 包 的 
源 代 码 ， 但 我 还 是 想 要 把 它 打包 到 可 执行 文件 中 去 。 

在 这 里 让 我 们 研究 一 下 这 个 方法 。 


9.3.1 | 基本 思路 


首先 先 来 研究 一 下 crowbar。 想法 很 简单 ， 比 如 下 面 这 段 crowbar 代码 


builtin.crb : 
































function create exception class(parent) { 
Bhan newiooneeee 
Bh arenee orem 
this.create = closure(message) { 


( 之 后 省 略 ) 
基于 上 面 这 段 代 码 ， 生 成 了 下 面 的 C 代码 。 也 就 是 说 ，crowbar 的 代码 被 作 
为 C 语言 的 字符 串 保 存 起 来 。 


#include <stdio.h> 
my ed en Re 











statile cnare "Steaua ms 人 三 人 
"function create exception class(parent) {\n", 
" this = new objeect(); \n", 
a this.parent = parent;\n", 
this.create = closure (message) On 


( 之 后 省 略 ) 
之 后 再 进行 编译 、 链 接 、 执 行 的 时 候 ， 在 加 载 使 用 者 指定 的 crowbar 源 代码 
之 前 ， 先 编译 这 段 字符 串 就 可 以 了 。 
另外 ,将 builtin.crb 转换 成 为 C 语言 代码 的 程序 是 在 crowbar 中 编写 的 。 
当然 ， 这 段 程序 必须 要 在 编译 crowbar 的 过 程 中 。 为 了 在 编译 crowbar 的 过 
程 中 能 让 crowbar 运行 起 来 ， 我 又 制作 了 没有 组 建构 建 脚本 状态 的 “minicrowbar” 
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可 执行 文件 ， 并 且 利 用 minicrowbar 来 完成 转换 工作 。 

也 不 是 特意 要 做 这 样 细致 的 工作 ， 而 是 我 觉得 用 C 语言 写 这 种 字符 串 转 换 程 
序 不 太 好 。 在 我 的 意识 中 ，crowbar 作为 一 门 以 Perl 为 目标 的 语言 ， 确 实 还 是 应 
该 在 crowbar 中 进行 字符 串 处 理 。 这 也 是 为 什么 我 要 尝试 着 去 这 么 做 的 原因 。 


9.3.2 | YY_INPUT 


保存 在 C 语言 字符 串 字 面 量 中 的 crowbar 代码 ， 会 在 使 用 者 编写 的 程序 之 前 
进行 编译 。 

制作 crowbar 的 时 候 ， 编 译 采 用 了 yacc 和 lex 协同 作业 的 方式 。 因 此 ， 最 先 
加 载 源 代 码 的 是 lex (生成 的 程序 )。lex ( 生成 的 程序 ) 在 默认 状态 下 将 从 全 局 变 
量 yyin 的 文件 指针 中 加 载 源 代码 ( 如 代码 清单 2-2 )。 

但 是 ， 这 次 不 是 从 文件 中 加 载 ， 而 是 加 载 内 存 中 的 字符 串 。 在 这 种 情况 下 ， 
flex 会 使 用 宏 YY_INPUT( 但是， 这 个 宏 的 移植 性 未 必 很 高 )。 

像 下 面 这 样 ， 通 过 替换 YY_INPUT 的 定义 ， 可 将 fle 的 标准 的 输入 例 程 蔡 换 
为 单独 的 输入 例 程 。 


/* crowbar.1 的 开头 */ 
#undef YY INPUT 
actnmne YYELNPUL (eu esule ma ize) (vesulee my yn EUREALmaESTZE 


输入 例 程 要 接收 缓冲 和 缓冲 大 小 (fgets () 流 ) 两 个 参数 ,缓冲 中 存 入 字 
符 串 并 返回 该 字符 串 的 字数 。 缓 冲 必须 以 “\0” 结 尾 。 

crowbar 的 my_yyinput () 引用 了 当前 解释 咒 的 “输入 模式 ”， 在 有 CRB_ 
FILE INPUT _ MODE 的 情况 下 从 文件 中 输入 , 在 有 CRB_STRING INPUT MODE 的 
情况 下 从 字符 串 输入 。 这 个 “输入 模式 ”保存 在 CRB_Interpreter 中 。 

构建 脚本 将 在 创建 CRB_Interpreter 的 时 候 进 行 编译 。 在 这 之 后 ， 将 使 
用 同一 个 解释 器 编译 用 户 程序 ， 此 时 为 了 能 够 让 用 户 程序 发 生 错误 时 显示 正确 的 
行 号 ， 解 释 需 中 保存 的 行 导 会 被 重 置 为 1。 
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9.3.3 | Diksam 的 构建 脚本 


在 Diksam 的 book ver.0.3 中 ，diksam.1lang 是 以 外 部 文件 的 形式 存在 的 ， 
单独 的 可 执行 文件 没 办 法 运行 。 这 对 于 构建 脚本 来 说 的 确 不 太 方便 。 

虽然 Diksam 的 程序 可 以 由 多 个 文件 组 成 ， 但 是 基本 思路 还 是 和 crowbar 
一 样 。 

构建 脚本 并 没有 在 文件 系统 中 保存 源 文件 的 实体 ， 因 此 ， 会 在 源 文件 的 搜索 
路 径 DKM REQUIRE SEARCH PATH、DKM LOAD _ SEARCH PATH 的 开头 默认 添 
加 上 。 

另外 ， 和 这 个 修改 一 并 完成 的 ， 还 有 使 用 者 即使 不 显 式 require 标准 
包 diksam.1ang， 它 也 会 被 默认 require 进来 。 















































三 次 加 载 / 链接 





在 之 前 的 Diksam 中 ，push_function、nevw 等 指令 的 操作 数 是 吨 数 和 类 的 
索引 值 ， 它 们 通过 以 下 方法 取 值 "(在 8.1.5 节 中 已 经 介绍 过 )。 

e 在 编译 的 时 候 ， 将 每 个 DVM_Executable 中 国有 的 索引 值 作为 操作 数 。 

e@ 在 向 DVM 中 加 载 的 时 候 , 将 字 节 码 中 的 对 应 位 置 埠 换 为 DVM_VirtualMachine 中 
本 有 的 索引 值 。 

在 这 种 方法 中 ， 一 个 DVM_Executable 被 特 化 到 一 个 DVM 中 ， 因 此 在 多 
个 DVM 中 不 能 共享 DVM_Executable。 

可 能 有 人 会 问 了 :“ 当 初 为 什么 要 创建 多 个 DVM 呢 ?” 例 如 ， 在 Web 应 用 中 ， 
一 台 服 务 器 上 很 可 能 运行 着 多 个 应 用 程序 ， 在 这 种 情况 下 ， 不 是 应 该 为 每 个 应 用 
程序 分 别 分 配 不 同 的 DVM 吗 ? 再 举 一 个 其 他 的 例子 ， 在 用 Diksam 编写 Diksam 
的 集成 开发 环境 (IDE ) 的 情况 下 ， 驱 动 IDE 的 DVM 和 在 IDE 的 菜单 上 选择 
“执行 ”而 启动 起 来 的 DVM， 也 应 该 是 两 个 不 同 的 DVM。 

因此 ， 这 次 我 们 引入 了 间接 引用 对 照 表 ， 通 过 它 就 可 以 不 用 再 替换 字 节 码 中 
函数 和 类 的 索引 值 了 。 间 接 引 用 对 照 表 保 存在 ExecutableEntry 中 ,在 加 载 的 

























































































中 在 不 同 的 阶段 中 取 值 也 不 同 。 





译 者 注 
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时 候 创建。 


struct ExecutableEntry tag { 
Dv Meeen oiler eremeapley 
dbl *function table; 函数 的 间接 引用 对 照 表 





















ie *class_ table; 类 的 间接 引用 对 照 表 
int *enum table; 枚 举 的 间接 引用 对 照 表 
ai *constant table; 常量 的 间接 引用 对 照 表 
Statie Eeelele wp 


Sternuet execueablepnnteev ta ex 


后 
并 且 ， 按 说 在 加 载 时 局 部 变量 的 仿 移 量 也 要 进行 字 节 码 的 替换 ,但 是 这 次 并 
没有 修改 。 这 里 说 的 将 换 通常 在 同样 的 机 如 上 运行 的 DVM 中 ， 也 会 出 现 相同 的 


结 


EX 为 crowbar 引入 鬼 车 


crowbar 名 字 是 由 “ 像 Perl 一 样 的 语言 ”而 来 的 。 

近 些 年 来 ，Perl 被 应 用 在 了 各 个 领域 中 ,但 是 早期 的 Perl 只 是 用 来 处 理 文本 
文件 的 。 说 起 处 理 文本 文件 ， 最 方便 的 莫 过 于 正则 表达 式 了 。 

但 是 想 要 从 零 开始 制作 一 个 正则 表达 式 引擎 的 话 太 困难 了 ， 因 此 我 们 引入 现 
有 的 正则 表达 式 程序 库 “ 鬼 车 ”。 


9.4.1 关于 “ 鬼 车 ” 


“ 鬼 车 ”是 小 迫 先 生 开发 的 正则 表达 式 程 序 库 。 

官方 网 站 ( 英语 ) : 

http:/Wwww.geocities.jp/kosako3/oniguruma/ 

在 写作 本 书 的 时 候 最 新 版 本 为 5.9.1 ”，UNIX ( 含 Mac 操作 系统 ) 和 Windows 
都 可 以 安装 。 许 可 类 型 为 BSD 许可 ， 标 明 著 作 权 、 许 可 条 文 和 免责 条 款 后 ， 可 以 



















































































中 现在 最 新 版 本 是 5.9.4。 译 者 注 
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Woe 


在 自制 软件 中 (可 以 不 开放 源 代码 ) 自由 使 用 。 

因为 使 用 了 这 个 程序 库 ， 所 以 可 以 简单 地 将 正则 表达 式 引 入 到 crowbar 中 。 
在 这 里 要 感谢 开发 者 小 迫 先 生 。 

具体 的 安装 方法 和 程序 库 的 使 用 方法 ， 考 虑 到 很 有 可 能 会 发 生变 化 ， 请 大 家 
直接 参考 网 站 的 内 容 。 


http://avnpc.com/pages/devlang#oniguruma 

















正则 表达 式 常 量 


在 编程 语言 中 处 理 正则 表达 式 的 时 候 ， 问 题 在 于 要 将 正则 表达 式 特 化 到 什么 
程度 。 

在 Perl 的 语言 设计 上 ， 专 门 针 对 正则 表达 式 进 行 了 优化 。 无 
论 s///、m/// 还 是 s//V/g 亦 或 = 一， 这 些 在 我 看 来 都 太 僵 化 了 。 对 于 在 AWK 
级 别 中 对 文本 处 理 进 行 特 化 的 语言 来 说 ， 这 样 也 许 很 好 ， 但 是 我 不 想 让 crowbar 
变 成 这 样 。 

反之 在 Java 和 PHP 中 并 没有 直接 支持 正则 表达 式 ， 而 是 用 程序 库 的 方式 文 
持 正 则 表达 式 。 也 许 有 人 会 想 ， 这 么 做 也 还 行 吧 。 在 这 种 情况 下， 如果 只 使 用 单 
纯 的 字符 串 来 表现 正则 表达 式 的 话 ， 在 字符 串 字 面 量 中 可 能 会 含有 特殊 售 义 的 字 
符 ， 因 此 不 得 不 进行 编码 处 理 。 字 符 串 字面 量 包含 的 特殊 含义 的 字符 ,很 有 可 能 
在 正则 表达 式 中 也 具有 特殊 的 含义 。 为 了 使 用 这 样 的 字符 ， 在 正在 表达 式 中 还 要 
进行 编码 ， 即 必须 要 进行 双重 编码 。 因 此 ， 例 如 Java 中 匹配 \ 的 正则 表达 式 必须 
要 写成 \\\\。 这 让 人 感觉 很 思春 。 

不 知道 是 不 是 为 了 解决 这 个 问题 ， 在 Python 中 引入 了 raw string 的 概念 。 在 
Python 中 ， 





















































-字符 申 ， 

这 样 在 字符 串 前 面 加 上 FT 的话 ， 在 这 个 字符 串 中 像 \ 这 样 的 字符 将 不 再 具有 
特殊 含义 。 如 此 一 来 匹配、 的 正则 表达 式 只 要 写成 \\ 就 可 以 了 。 在 C# 中 加 
上 了 @ 的 字符 串 ( 逐 字 字符 串 : verbatim string literal ) 能 达到 同样 的 效果 。 

但 是 ， 如 果 \ 没有 特殊 含义 的 话 ， 字 符 串 字面 量 中 出 现 了 " 的 时 候 该 怎么 办 呢 ? 

Python 的 使 用 手册 09 中 写 道 : 























图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


9.4 为 crowbar 引 入 鬼 车 | 311 



































引号 可 以 用 反 斜 杠 进行 编码 ， 但 是 这 样 一 来 反 斜 杠 本 身 就 成 了 遗留 问题 。 例 如 ， 
r"\"" 是 正确 的 字符 串 字 面 量 ， 说 明 由 反 和 斜 杠 和 双 引 号 组 成 了 一 个 字符 串 ， 而 r"\" 则 
是 错误 的 字符 捉 字面 量 ( raw 字符 串 不 能 以 反 斜 杠 和 连续 奇数 个 字符 串 结尾 )。 严格 地 
说 ，( 因为 反 和 斜 杠 会 编码 跟 在 它 后 面 的 引号 ) **raw 字符 串 不 能 以 单个 反 斜 杠 结束 **。 





















































































































































在 我 看 来 ， 这 是 一 种 招致 混乱 的 设计 ( 顺便 说 一 下 ，C# 的 逐 字 字符 串 采用 了 
两 个 双 引 号 写 在 一 起 代表 一 个 双 引 号 的 设计 ， 这 种 设计 与 Pascal 相似 )。 

另外 ， 如 果 想 要 高 效 地 解释 正则 表达 式 ， 就 必须 要 进行 事先 编译 。 但 是 ， 对 
于 使 用 者 ( crowbar 程序 员 ) 来 说 ， 每 次 都 编译 十 分 麻烦 。 在 大 多 数 的 程序 中 ， 
正则 表达 式 都 不 是 在 运行 时 组 合 而 成 的 ， 因 此 可 以 在 编译 源 代码 的 同时 编译 正则 
表达 式 。 这 样 一 来 ， 作 为 一 门 编程 语言 来 说 ， 它 就 需要 一 种 表现 “正则 表达 式 字 
面 量 ” 的 格式 。 

在 Ruby 中 ,通过 %! 字符 串 ! 的 方式 可 以 实现 跟 Python 的 raw string 一 样 
的 效果 。 与 Python 不同 的 是 ，! 可 以 是 任意 字符 串 。 这 种 方法 中 ， 只 要 使 用 字 
符 串 字面 量 中 没有 的 字符 把 字符 串 包 起 来 即 可 ， 也 很 好 地 回避 了 Python 中 出 现 
的 问题 。 另 外 ,在 Ruby 中 通过 $r! 正则 表达 式 ! 的 方式 可 以 表示 一 个 正则 表达 
式 字 面 量 ， 使 用 这 种 方式 定义 的 字面 量 ， 可 以 在 编译 时 先 编译 正则 表达 式 。 但 在 
crowbar 中 ，% 会 被 当做 模 运 算 符 来 使 用 ， 也 充分 考虑 到 了 (运算 符 左 右 两 边 不 需 
要 输入 空格 ) 像 a$r+3 这 样 的 程序 。 

从 而 在 crowbar 中 ,采用 了 %%r" 正则 表达 式 " 的 格式 。 和 Ruby 一 样 ，%$%r 后 
面 可 以 是 任意 的 字符 。 也 就 是 说 ,，%%r"hoge" 和 %$%r!hoge! 两 种 写法 达到 的 效 
果 是 相同 的 。 

但 是 实际 上 ， 这 样 的 语法 一 旦 用 多 了 ， 就 会 出 现 各 种 各 样 的 符号 ( 用 来 定义 
正则 表达 式 )， 看 上 去 就 不 那么 美观 了 。 



























































































































































正则 表达 式 的 相关 函数 


crowbar 中 与 正则 表达 式 相 关 的 函数 如 下 所 示 。 





@ reg match(regexp, subject, region); 











A 


对 字符 串 subject 使 用 正则 表达 式 regexp 进行 匹配 ， 如 果 匹 配 返 回 true， 
不 匹配 则 返回 false。 
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可 以 省 略 regijon， 也 可 以 传 入 一 个 使 用 new_object () 创建 的 对 象 。 

















在 region 中 会 返回 string、begin、end 三 个 数组 成 员 。 例 如 正则 表 





达 式 "hoge(.*)piyo"，string[0] 中 保存 着 与 表达 式 全 部 匹配 的 字符 
串 ，string [1] 中 保存 着 与 \1”( 也 就 是 正则 表达 式 的 (.*) 部 分 ) 匹配 的 字符 











串 。start、end 返回 


















































string [n] 开始 和 结束 位 置 +1( 这 个 设计 是 照搬 鬼 车 的 )。 


reg _ replace (regexp, replacement, subject); 


在 字符 串 subject 





|， 


申 replacement,， 3 


个 匹配 的 位 置 。 











reg replace all 





在 字符 串 subject 








包括 reg replace ( 





中 ， 将 匹配 正则 表达 式 regexp 的 部 分 替换 为 字符 

















并 返回 埠 换 后 的 字符 串 。 如 果 有 多 个 位 置 匹 配 ， 则 埠 换 第 一 





























regexp, replacement, subject); 


中 ， 将 匹配 正则 表达 式 regexp 的 部 分 替换 为 字符 





























串 replacement， 并 返回 替换 后 的 字符 串 。 替 换 针 对 所 有 匹配 的 位 置 进行 。 











在 内 ， 在 replacement 中 可 以 使 用 回溯 引用 ，replacement 



































的 类 型 只 能 是 字符 串 。 但 我 想 ， 给 reg_replace() 传递 的 \1 是 不 是 必须 要 写 
成 \\1 呢 ? 实际 上 在 crowbar 中 ,含有 \n ( 换行 符 ) 和 Nt ( 制 表 符 ) 的 字符 串 字 面 





































































































量 需要 特殊 处 理 ， 因 为 在 crowbar 中 没有 将 \025、 和 \x5c 之 类 的 八进制 或 者 十 六 这 
































制 的 数值 认 入 到 字符 串 中 ( C 语言 中 有 ) 的 功能 ,所 以 将 \ 写 为 M 也 是 没有 问题 的 ( 看 
> -A 











到 这 肯定 会 有 人 问 我 : * 






































那 前 面 那 节 的 讨论 还 有 什么 意义 呢 ?”)。 
























































么 问题 。 


用 regexp 分 割 字 各 














虽然 可 能 有 人 会 认为 以 后 使 用 这 种 设计 比较 好 ， 但 是 我 认为 现在 这 样 也 没 什 








@ reg _SDP1Lit (Yegexp，Subject) ; 
串 subJject， 返 回 分 割 后 的 字符 串 数组 。 





























9.5.1 | foreach 和 迁 代 器 ( crowbar ) 


在 9.1.3 节 的 注解 中 写 道 : “但 是 ， 在 crowbar 的 标准 中 ， 并 不 是 引入 foreach 
函数 ， 而 是 引入 foreach 语 法 。” 如 前 面 所 述 ， 有 了 闭 包 ， 即 使 语言 本 身 不 
支持 ， 也 可 以 进行 类 似 foreach 的 实现 。 但 在 crowbar 的 闭 包 中 ,不 能 使 
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ricted closure， 
就 可 以 实现 break 或 
者 continue。 


x 
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用 break、continue、while 等 语句 *， 因 此 ，crowbar 中 支持 了 foreach。 
crowbar 的 foreach 的 使 用 方法 如 下 所 示 。 





foreacnl(y 0 
ohana Wy nr WD 


} 
foreach 的 语法 根据 语言 而 异 ， 比 如 在 C# 中 是 这 样 的 。 


foreach (Object o in hogeCollection) 


{ 

















// 处 理 





} 
Java 中 虽然 没有 foreach， 但 是 对 for 语句 进行 了 扩展 ,使 用 方法 如 下 。 


feral(opectao nodeomeetln TH 
// 使 用 e 进行 处 理 
































} 

crowbar 中 的 foreach 结合 了 上 面 两 种 语言 的 特点 。 这 么 做 的 原因 ， 首 先是 
如 果 没 有 foreach 语 名 的话， 那么 程序 员 之 间 就 没 办 法 在 交流 的 时 候 说 “这 里 
用 foreach 转 一 下 ”。 可 话 虽 如 此 ,但 是 像 C# 这样 将 in 之 类 的 又 短 又 经 常会 
被 用 到 的 单词 作为 关键 字 ， 总 觉得 有 一 些 不 安 。 

在 上 面 的 例子 中 ,使 用 foreach 轮 询 了 一 个 数组 ， 这 是 因为 数组 具有 迭代 
器 〈iterator ) 的 所 有 方法 。 
crowbar 中 的 迭代 器 采用 了 GoF* 的 风格 ， 具 有 以 下 这 些 方法 。 
@ first() 
返回 迭代 器 中 的 第 一 个 元 素 。 
® next() 


将 迭代 器 的 指向 向 后 移动 一 个 。 


















































Xl 














® is done!() 


迭代 器 移动 到 超出 最 后 一 个 元 素 的 位 置 时 返回 true， 否 则 返回 false。 























® current item() 
返回 迭代 器 中 当前 的 元 素 。 
习惯 了 Java 的 人 可 能 会 觉得 这 样 的 设计 和 记忆 中 的 不 太一 致 ， 这 是 因为 Java 
的 迭代 融 指 向 数组 的 元 素 和 元 素 之 间 。 调 用 next () 的 时 候 ， 和 迭代 需 移动 到 下 一 


























vy 
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个 “元 素 和 元 素 之 间 ”， 此 时 返回 的 是 它 跨 过 的 那个 元 素 。 

与 此 相对 ，crowbar 的 迭代 器 (GoF 风格 ) 是 直接 指向 元 素 的 。 因 此 ， 使 
用 curzent_item() 方法 可 以 取得 当前 元 素 ， 只 要 不 调用 next () ， 无 论调 用 
几 次 current_item()， 返回 的 都 是 同样 的 元 素 。 

至 于 哪 种 设计 方式 更 好 ， 肯 定 会 有 各 种 不 同 的 意见 。 但 是 我 觉得 Java 设计 对 
于 我 来 说 很 不 好 用 〈 只 是 “看 一 下 ”这 个 元 素 ， 和 迭代 央 就 移动 到 下 一 个 元 素 了 )， 
因此 ， 这 里 使 用 了 GoF 风格 的 设计 方式 。 
虽然 是 这 么 说 ,但 取得 数组 的 迭代 器 的 方法 如 果 是 GoF 风格 的 话 ， 本 应 
叫 作 CreateIterator () , 可 这 个 名 字 实 在 是 太 长 了 , 因此 叫 作 iterator() 了 。 
只 有 这 点 可 以 说 是 使 用 了 Java 的 风格 ,没有 与 GoF 风格 统一 。 

数组 迭代 器 的 实现 如 下 所 示 。__create_array_iterator() 是 创建 迭代 
器 用 的 隐藏 函数 ， 被 记录 在 构建 脚本 中 。 数 组 的 iterator() 方法 所 返回 的 迭 
代 器 就 是 调用 这 个 函数 取得 的 。 


Eune Een create array iterator(array) { 




































































Bh newiobleet( 
index = 0; 

Enmssfinst enosurel lt 
index = 0; 


ba 


this.next = closure() { 
index++; 
this.is done = closure() { 


return index >= array.size(); 
jp 


this.current item = closure() { 





return array[index]; 


returmn thlise 


9.5.2 | switch case ( Diksam ) 


本 节 将 为 Diksam 引入 switch case。 
switch case 语句 在 C、Java、C# 等 语言 中 都 存在 ， 但 是 C 中 的 switch 
case 却 很 不 像 话 ， 里 面 并 不 能 写 break 语句 ， 也 就 是 说 ，switch case 每 次 
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都 要 从 上 至 下 一 直 执行 到 结束 。Java 在 这 点 上 也 是 一 样 。C# 的 语法 结构 看 上 去 
和 C 一 样 ， 但 是 如 果 在 case 的 未 尾 不 加 上 break 的 话 就 会 发 生 编译 错误 。 这 
有 在 case 后 而 没有 有 。 种 设计 方式 正好 解决 了 这 个 问题 *。 此 处 贯彻 了 让 习惯 了 C 和 Java 的 程序 员 容易 


ee 机 上 和 手 的 守则 ， 在 这 点 上 Diksam 做 了 很 多 妥协 。 但 是 在 这 个 问题 上 如 果 去 迎合 C 
语句 ) 的 情况 下 ， 可 必 
































省 略 break。 语言 的 话 ， 就 不 太 符 合 我 的 审美 观 了 。 话 说 回来 ，Diksam 中 是 这 样 进行 switch 
case 的 。 
Switch (al) 
case 1 { 


// a 等 于 工时 执行 
} case 2,3 { 
// a 等 于 2 或 3 时 执行 
} case 4 { 
// a 等 于 4 时 执行 
} default { 
WV 个 等 二 让 的 233 时 要/ 笨 























} 
并 且 ，Diksam 的 switch case 在 原则 上 只 要 是 能 通过 == 进行 比较 的 ， 就 
都 可 以 通过 switch 表达 式 (上 例 中 的 a) 和 case 表达 式 (区别 在 于 在 == 的 时 
候 会 发 生 类 型 转换 ，switch 的 时 候 不 会 发 后 )。 因 此 ， 字 符 串 等 类 型 也 可 以 使 


用 switch case。 


9.5.3 enum ( Diksam ) 


Diksam 中 也 同样 引入 了 枚 举 类 型 ( enumerated type )。 



































enum Fruits { 
APPLE, 
ORANGE, 
BANANA 


} 
有 了 上 面 的 定义 , 就 可 以 使 用 Fruits.APPLE、 Fruits.ORANGE、 Fruits. 
BANANA 的 枚 举 ( enumerator ) 了 。 
Diksam 的 枚 举 类 型 内 部 保存 的 是 从 0 开始 顺序 编号 的 int ， 但 是 并 不 能 作为 
int 类 型 进行 四 则 运算 、 赋 值 给 int 类 型 以 及 与 int 类 型 进行 比较 运算 ， 只 能 够 
在 同一 枚 举 类 之 间 比 较 (这些 功能 可 能 经 常会 被 用 到 ， 因 此 这 里 策略 性 地 破坏 了 
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Woe 


美感 ,但 可 以 比较 大 小 )。 
另外 ,在 用 + 连接 左边 的 字符 串 时 ， 枚 举 类 型 会 转换 为 字符 串 类 型 。 





Fruits f£f = Fruits.ORANGE; 





println("f.." + f); // 输出 "f. .ORANGE" 

如 果 没 有 这 个 设计 的 话 ， 枚 举 在 编译 的 时 候 就 可 以 转换 为 整数 类 型 了 (现在 
的 Diksam 还 不 能 将 字 节 码 保存 为 文件 )。 为 了 将 枚 举 作为 字符 串 输 出 ， 必 须要 把 
对 应 的 字符 串 保存 在 DVM_Executable 中 。 另 外 ， 还 必须 要 和 其 他 源 文 件 进行 
链接 。 为 了 达到 这 个 目的 ， 在 ExecutableEntry 中 与 函数 和 类 一 样 保存 了 一 
份 转换 对 应 表 ( 请 参考 9.3.4 节 )。 


9.5.4 | delegate ( Diksam ) 


在 Diksam 的 语法 规则 中 ， 函 数 调用 是 下 面 这 样 的 。 
































primary expression LP argument list RP 

也 就 是 说 ， 函 数 调用 表达 式 是 在 表达 式 后 面 加 上 括号 并 且 里 面 括 着 参数 。 如 
有 果 要 把 语法 规则 变 成 下 面 这 样 的 话 ， 实 际 上 简单 了 不 少 。 

IDENTIFIER LP argument list RP 

如 果 变 成 了 上 面 这 样 ， 当 然 ， 是 为 了 实现 在 类 似 于 C 的 语言 中 所 说 的 函数 指 
针 。 例 如 为 GUI 的 按钮 分 配 处 理 的 时 候 ， 在 Java 中 要 创建 一 个 实现 了 特定 接口 
的 类 的 实例 〈 事 件 监 听 器 )， 并 将 它 设置 到 按钮 中 。 这 种 方法 存在 以 下 的 问题 : 


















































@ 需要 为 此 特意 去 定义 一 个 类 ， 不 仅 麻烦 也 会 使 代码 变 得 宛 长 。 

® 按 下 按钮 时 ， 处 理会 被 编写 在 别 的 类 里 面 ， 对 于 这 个 类 来 说 等 于 放宽 了 类 的 封装 。 

虽然 使 用 内 部 类 可 以 解决 这 个 问题 ， 但 也 因此 又 带 来 了 内 部 类 的 使 用 问题 。( 对 于 
实现 语言 的 人 来 说 ) 这 个 方法 太 麻烦 了 ， 而 且 对 于 初学 者 来 说 也 不 太 容 易 掌 握 。 

e 在 按 下 按钮 的 时 候 ， 事 件 也 可 以 由 承载 了 按钮 的 类 ( JFrame 等 ) 接收 。 如 果 使 用 

了 这 种 处 理 方式 ， 在 这 个 类 中 有 两 个 按钮 的 话 ， 就 无 法 为 它们 分 配 单独 的 动作 。 


























































































































































































































因为 只 是 “ 想 要 执行 按 下 按钮 时 的 处 理 "， 所 以 很 自然 地 就 会 想到 ， 如 果 能 
只 登录 描述 了 处 理 的 函数 就 好 了 《可 能 不 得 不 使 用 朵 包 ， 但 是 在 Diksam 中 却 不 
已 
已 
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为 了 能 够 达到 上 述 效 果 ， 就 需要 为 静态 类 型 的 语言 Diksam 引入 “函数 类 型 ” 
(在 C 语言 中 的 话 就 是 指向 函数 的 指针 型 )。 
如 果 想 要 声明 一 个 “接收 int 参数 ,返回 double 函数 ”的 类 型 ， 肯 定 不 能 
像 C 语言 这 样 编写 代码 。 
qemueq( eum GE 
说 到 Java， 从 Java7 开始 就 有 了 要 引入 闭 包 的 说 法 ， 当 初 设想 的 是 下 面 这 样 
的 代码 。 
double (int) func; 
但 是 在 Java( Diksam ) 中 存在 检查 异常 ， 如 果 把 throws 也 作为 方法 必要 的 
信息 ， 就 要 写成 下 面 这 样 。 
double (int) throws HogeException, PiyoException func; 
上 面 的 写法 是 因为 在 语法 上 存在 不 确定 性 ， 所 以 需要 改 为 下 面 这 样 的 写法 。 
double (int) throws HogeException | PiyoException func; 
相反 也 可 以 试 着 像 下 面 这 样 定义 。 
{ int => double } func; 
从 2009 年 5 月 到 现在 ， 就 连 是 否 要 引入 (〈 闭 包 ) 这 个 问题 本 里 都 还 没有 得 
入 请 量 玫 Joe7 吉 新 出 结论 *。 说 句 题 外 话 ， 无 论 哪 种 写法 我 都 觉得 太 长 了 (使 用 起 来 至 少 也 要 像 C 
没有 加 入 这 个 功能 。 语言 中 的 typeof 那样 )。 
因此 ,在 Diksam 中 ,引入 了 C# 风格 的 关键 字 delegate。 



























































qelegate sqoubleqn une (me vealue enew enet lon open 
根据 这 个 描述 ，Func 被 定义 为 “接受 int 型 参数 ， 返 回 aouple， 可 能 会 
抛 出 HogeException 和 PiyoException 的 函数 ”的 类 型 。 
基于 上 面 的 定义 ， 就 可 以 声明 Func 类 型 的 变量 ， 参 数 中 也 可 以 接收 Func 


类 型 了 。 














定妆 
delegate double Eunc (int Value) throws HogeException, PiyoException; 





// 定义 函数 


double func (int value) throws HogeException, PiyoException{ 


| 8 
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// 将 func 赋值 给 Func 型 的 变量 工 
EUneaEEe Funes 




















// 通过 工 调 用 func 
Ei 


与 (# 的 delegate 不同 ,Diksam 的 delegate 类 型 并 不 是 类 的 对 象 。 
Te 没有 必要 使 用 new*， 也 可 以 说 不 能 new。 男 外 ， 不 能 将 多 个 函数 赋值 到 一 
要 new 了 。 个 delegate 中 。 
另外 , 在 给 aelegate 类 型 的 变量 赋值 的 时 候 ， 和 方法 重 写 时 一 样 ， 返 回 值 
必须 共 变 ， 参 数 必须 反 变 。 
方法 也 可 以 赋值 给 delegate 类 型 的 变量 ， 此 时 ， 方 法 所 在 对 象 的 引用 也 会 
被 保存 到 变量 中 。 因 此 ， 方 法 在 作为 事件 句柄 被 调用 的 时 候 ， 也 可 以 和 平 稼 一 样 
使 用 this 引用 。 
在 实现 上 ，delegate 类 型 的 值 作为 DVM_Object 的 联合 体 之 一 保存 在 堆 
中 。delegate 型 变量 如 果 保 存 的 是 方法 的 话 ， 就 必须 要 同时 保存 方法 所 在 对 象 
的 引用 ， 因 此 ， 需 要 保存 的 信息 如 下 所 示 。 


/* 保存 delegate 信息 的 结构 体 */ 
typedef struct { 
/* 如 果 保存 的 是 方法 ， 那 么 这 个 成 员 保存 的 是 方法 所 在 对 象 的 引用 。 如 果 是 函数 则 为 nul1 */ 








































































































DVM ObjectRef CHIjece; 
/* 函数 或 者 方法 的 索引 值 */ 
ie index; 


} Delegate; 


/* 在 DVM_Object 结构 体 中 通过 联合 体 保存 上 述 结构 体 */ 
struct DVM Object tag { 
ObjectType type; 








unsigned int marked:1; 
nonel 
DVM String SE 
DVM Array array; 


BVMelossSoOpIect eelass EoD etn 
NativePointer nab veneonmter, 
Delegate gedlegaeen 

} ui 

SeeueteDv Mol etetagd ore 

Senmet env Meetatad mee 
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那么 ， 关 于 delegate 对 象 的 创建 时 机 ， 从 语言 实现 的 角度 讲 ， 无 论 是 函 
数 还 是 方法 ， 让 调用 总 是 通过 aelegate 对 象 的 话 比较 容易 实现 。 无 论 是 调 
用 print ("hello"); 这 样 的 函数 ， 还 是 调用 obj .method() 这 样 的 方法 ,在 
它们 对 print、obj .method 进行 计算 的 时 候 就 会 创建 delegate。 但是, 向 堆 
中 保存 对 象 是 一 项 开销 很 大 的 处 理 ， 大 多 数 情况 下 ，print 也 不 会 赋值 给 其 他 变 
量 ， 而 是 立即 调用 。 为 了 不 因 个 别 情况 而 影响 整体 的 效率 ，delegate 对 象 在 以 
下 时 机 被 创建 。 

1. 在 函数 的 情况 下 ， 当 函数 赋值 给 aelegate 变 量 的 时 候 。 
2. 在 方法 的 情况 下 ， 通 过 非 立 即 调用 的 形式 进行 了 ( 表达 式 ) 计算 的 时 候 。 

男 外 ，delegate 对 象 在 指向 方法 的 时 候 也 引用 了 对 应 的 对 象 ， 这 样 做 会 导 
致 这 个 对 象 不 能 成 为 GC 的 目标 。 因 此 也 需要 对 GC 进行 修改 。 


EE final、const ( Diksam ) 


crowbar 想 要 定义 常量 的 时 候 ， 要 使 用 final ( Java 风格 )。 
final HOGE = 10; 


在 变量 声明 时 如 果 加 了 final 的 话 ， 在 赋 了 初始 值 之 后 ， 就 不 能 再 对 其 进 
行 赋值 了 。 并 且 ， 必 须要 在 声明 的 同时 完成 赋 初 始 值 的 动作 。final 也 可 以 用 于 
局 部 变量 。 


在 Diksam 中 ， 同 样 使 用 了 final。 


final int HOGE = 10; 


在 Diksam 中 函数 的 形式 参数 、catch 子 句 中 接收 异常 的 变量 ， 都 默认 为 
是 final 的 。 这 样 做 的 目的 在 于 , 不 让 从 被 调用 的 位 置 或 者 异常 发 生 的 源头 获得 
的 重要 信息 被 稀里糊涂 地 覆盖 掉 。 

在 Diksam 中 人 允许 分 割 编译 ， 并 且 不 存在 览 源 文件 的 全 局 变量 。 为 了 不 出 现 
乱用 全 局 变量 的 情况 ， 我 认为 最 好 的 方式 是 通过 get_xxx() 和 set_xxx() 限 
数 。 但 是 在 大 规模 的 程序 中 ， 可 能 需要 被 所 有 程序 引用 的 全 局 常量 。 

但 是 ， 我 认为 ， 与 其 抛弃 “不 存在 跨 源 文件 的 全 局 变量 ”等 〈 和 其 他 语言 相 


































































































































































































中 ”这 两 行 代码 在 被 () 调用 前 ， 会 被 当做 表达 式 。 译 者 注 
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Woe 








比 有 些 特别 ) 的 设计 ， 直 接 允 许 使 用 全 局 变量 ， 不 如 声明 加 了 final 的 全 局 常 
量 可 能 更 好 一 些 。 但 实际 上 并 没有 这 么 简单 。Diksam 具有 顶层 结构 ， 顶 层 结构 
是 由 被 执行 的 语句 组 成 的 。 因 此 ， 即 使 在 函数 外 声明 了 变量 (如果 是 C 语言 的 
话 ， 就 是 声明 全 局 变量 )， 在 声明 语句 被 执行 前 是 得 不 到 初始 值 的 。 这 样 一 来 ， 
因为 require 了 的 其 他 文件 源 代码 的 顶层 结构 ( 在 编译 时 ) 是 绝对 不 会 执行 的 ， 
所 以 即使 用 final 声明 的 常量 可 以 被 其 他 源 文件 require。 但 是 在 编译 时 来 看 ， 
它 并 没有 被 赋值 ， 因 此 达 不 到 预期 的 效果 。 
因此 ， 在 Diksam 中 配合 着 final 引入 了 const 这 个 关键 字 。const 的 使 
用 方法 如 下 所 示 。 
const HOGE = 0 
因为 通过 初始 值 可 以 判断 类 型 ， 所 以 const 无 需 指定 类 型 。 
const 与 图 数 定义 、 枚 举 、dqelegate 的 声明 一 样 ， 不 能 写 在 水 数 内 。 男 
外 ， 可 以 从 其 他 源 文件 中 被 引用 。 
在 为 const 指定 的 常量 设置 值 的 时 候 ， 需 要 考虑 以 下 的 情况 。 






















































































1. 与 C 语 言 的 预 处 理 相 同 ， 在 编译 前 就 要 置换 常量 。 
2. 在 编译 时 置换 常量 。 
3. 编译 时 与 变量 采取 同样 的 实例 ， 在 开始 执行 时 再 将 值 代 入 。 













































































1、2 在 编译 前 和 编译 时 进行 替换 的 方法 在 执行 效率 方面 具有 优势 ， 但 是 对 于 
使 用 者 来 说 ， 会 由 于 不 能 定义 如 下 形式 的 常量 而 困扰 。 


const HOURS IN DAY = 24;// 一 天 24 小 时 
const MINUTES IN DAY = HOURS IN DAY * 60;// 1 天 = 24 x 60 分 


如 果 要 在 编译 时 或 者 编译 前 置换 常量 ， 那 么 这 些 表达 式 在 编译 时 就 必须 要 全 
部 执行 。 如 “数组 大 小 ”等 被 作为 常量 表达 式 处 理 的 话 ， 就 需要 ( 在 编译 时 ) 调 
用 数组 的 size () 方法 。 这 样 的 做 法 太 困难 了 ， 因 此 Diksam 还 是 采用 了 方法 3。 

所 有 包含 有 代码 的 const 常量 的 初始 值 都 将 作为 字 节 码 保 存在 DVM_ 
Executable 中 ， 在 编译 /加 载 源 代码 的 时 候 再 去 执行 它们 。 初 始 值 中 可 以 书写 
任意 的 表达 式 ， 既 可 以 使 用 new 分 配对 象 ， 也 可 以 使 用 原生 函数 分 配 特 定 的 系统 
资源 (例如 stdain、stdout 、stdexrt 文件 指针 等 )。 

因为 const 常量 会 被 其 他 文件 链接 :所 以 与 函数 、 类 、 枚 举 一 样 在 
ExecutableEntry 中 保存 了 转换 对 应 表 。 
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本 章 将 要 说 明 在 本 书 中 crowbar 的 最 终 版 本 (book ver0.4) 的 设计 。 
但 是 ， 本 章 中 的 内 容 既 不 是 定稿 版 的 文档 ， 也 不 是 很 严谨 。 因 为 如 果 想 要 严谨 地 








描述 一 门 语言 的 设计 需要 相当 的 篇 幅 。 


PEE 和 程序 结构 


构成 程序 的 要 素 














crowbar 的 程序 由 以 下 要 素 构 成 。 


1. 顶层 结构 

顶层 结构 (toplevel ) 由 语句 ( statement ) 组 成 。crowbar 的 程序 由 处 理 右 指 
定 的 源 文件 的 顶层 结构 开始 执行 。 
2. 函数 定义 

函数 定义 ( function definition ) 是 定义 可 以 (可 能 ) 从 其 他 位 置 调用 的 函数 。 
在 顶层 结构 的 语句 按 顺 序 执行 的 时 候 会 忽略 防 数 定义 。 因 为 函数 允许 回溯 引用 ， 
所 以 其 定义 的 位 置 既 可 以 在 调用 的 位 置 之 前 ， 也 可 以 在 调用 的 位 置 之 后 。 









































文字 语法 规则 


A2.1 | 源 文件 的 编码 


crowbar 的 源 文件 使 用 与 处 理 需 相同 的 字符 编码 。 当 前 确定 的 是 在 UNIX 环 
境 中 为 EUC 和 UTF-8， 在 Windows 环境 中 为 GB2312。 除 了 写 注 释 和 定义 字符 串 
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“ 面 量 之 外 的 情况 ， 都 不 能 使 用 非 ASCII 字符 。 


人才 





关键 字 





下 面 这 些 单词 作为 crowbar 的 关键 字 ， 不 能 作为 变量 名 、 枯 数 名 使 用 。 


breskeeatehneelosuee eontineeels el emoloe eo Ene 





foreach function global if null return throw true try while 


空白 字符 的 处 理 


空格 (ASCII 码 的 0x20 )、 制 表 符 和 换行 符 在 源 文 件 中 除了 区 分 不 同 的 标识 
符 外 没有 其 他 含义 。 


在 crowbar 中 从 # 开始 到 本 行 结束 都 会 被 作为 注释 。 


A2.5 标识 符 


被 当做 变量 名 、 函 数 名 、 类 名 等 使 用 的 标识 符 ， 需 要 遵从 以 下 规则 。 
e 第 一 个 字符 必须 是 英文 字母 ( A~Z，a~z ) 或 者 是 下 划 线 。 
e 从 第 二 个 字符 开始 可 以 是 英文 字母 、 下 划 线 或 数字 ( 0~9 )。 


crowbar 的 标识 符 中 不 允许 使 用 中 文 等 ASCII 字符 集中 不 包含 的 字符 。 


EX 再 


1. 真 假 值 字面 量 
真 假 值 字面 量 只 有 true( 真 ) 和 false( 假 )。 
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2. 整数 字面 量 
整数 字面 量 由 0 或 者 “1~9 后 面 跟着 0 个 或 以 上 的 0~9” 组 成 。 
目前 为 止 还 不 支持 八进制 和 十 六 进 制 的 表示 方式 。 
3. 实数 字面 量 
实数 字面 量 由 “1 个 以 上 0~9 的 组 合 、 点 、1 个 以 上 0~9 的 组 合 ” 组 成 。 
.5 或 者 1. 都 不 是 实数 字面 量 。 
4. 字符 串 字面 量 
字符 串 字 面 量 是 由 双 引 号 括 起 来 的 字符 串 。 在 字符 串 字 面 量 中 \n 表示 换 
行 ，\t 表示 制 表 符 ,，\\ 表示 \。 





















































可 





5. null 字面 量 
null 字面 量 用 来 表示 引用 类 型 没有 指向 任何 值 。 
6. 数组 字面 量 


在 花 括号 {} 中 将 元 素 用 逗号 分 开 ， 并 初始 化 元 素 就 创建 了 数组 字面 量 。 数 
组 字面 量 的 详细 内 容 请 参考 A.3.3 市。 

在 最 后 一 个 元 素 的 后 面 有 没有 逗号 都 可 以 。 
7. 正则 表达 式 字面 量 

由 %%r 和 任意 一 个 将 正则 表达 式 括 起 来 的 字符 组 成 正则 表达 式 字面 量 。 

【 例 】 


wou el 


ssr!ihoge(.)a\1l! Ban oe 








运算 符 





以 下 这 些 字符 ( 也 许 只 是 一 部 分 ) 会 被 当做 运算 符 ( operator ) 解释 。 





= = /=%=997 3 (ll 
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于 分 隔 符 


以 下 的 字符 会 被 解释 为 分 隔 符 ( punctuator )。 
(0 





A3 数据 类 型 





类 型 一 览 





在 crowbar 中 存在 以 下 类 型 ( type )。 

逻辑 类 型 : true 或 者 false。 

整数 类 型 : 能 够 表达 的 范围 与 处 理 需 编译 的 C 语言 环境 中 的 int 类 型 一 致 。 
实数 类 型 : 能 够 表达 的 范围 与 处 理 吉 编译 的 C 语言 环境 中 的 double 类 型 一 致 。 
字符 串 类 型 : 字符 串 类 型 的 详细 内 容 请 参考 A.3.2 市。 

数组 类 型 : 数组 类 型 的 详细 内 容 请 参考 A.3.3 节 。 

对 象 类 型 : 对 象 类 型 的 详细 内 容 请 参考 A.3.4 节 。 

函数 类 型 : 函数 类 型 的 详细 内 容 请 参考 A.3.5 节 。 

原生 指针 类 型 : 原生 指针 类 型 的 详细 内 容 请 参考 A.3.6 节 。 


A3.2 字符 串 类 型 


crowbar 的 字符 串 类 型 属于 引用 类 型 。 但 是 因为 字符 串 本 身 不 能 改变 (im- 


















































mutable )， 所 以 使 用 者 没有 必要 意识 到 它 是 一 个 引用 类 型 。 














crowbar 的 字符 串 类 型 的 内 部 表现 形式 为 ， 处 理 带 编译 的 C 语言 环境 中 的 宽 


字符 串 具 有 以 下 的 模拟 方法 ( fake method )， 通 过 方法 调用 的 形式 取得 字符 串 





的 相应 信息 。 
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使 用 范例 街 光 

len = s.length(); 取得 字符 串 的 长 度 

截取 字符 串 ， 并 返回 包含 截取 内 容 的 新 字符 串 。 第 1 个 参 
= 数 指定 截取 开始 的 位 第 1 个 字符 是 0 )， 第 2 个 参数 指 


定 要 截取 的 长 度 
A.3.3 | 数组 类 型 


crowbar 是 非 静 态 类 型 的 语言 ， 因 此 数组 中 可 以 保存 所 有 的 类 型 ， 不仅 如 此 ， 
各 种 数据 类 型 可 以 同时 被 装 在 一 个 数组 里 面 。 
crowbar 的 数组 类 型 可 以 通过 数组 字面 量 和 new_array () 因数 创 妇 


# 创建 以 整数 、 字 符 串 、 实 数 、 数 组 为 元 素 的 数组 
ae Ml Uae oso Mi 2 oe 

































































[2 
oO 








# 创建 有 10 个 元 素 的 数组 ( 元 素 的 初始 值 为 null ) 


pe uewiar eo oe 


取得 数组 元 素 和 为 元 素 赋值 都 需要 使 用 [] 运算 符 。 数 组 下 标 从 0 开始 。 
# 取得 数组 的 元 素 


oa (Well ou a eo 


# 为 数组 元 素 赋值 


STR 


crowbar 的 数组 是 引用 类 型 。 
数组 具有 以 下 的 模拟 方法 ， 通 过 方法 调用 的 形式 操作 数组 。 








































































































使 用 范例 含义 
a.add (3); 向 数组 的 末尾 添加 元 素 
size = a.size(); 取得 数组 的 元 素 个 数 
改变 数组 的 元 素 个 数 。 如 果 新 指定 的 大 小 小 于 当前 数组 的 元 素 个 数 ， 
a.resize (new size); 则 根据 新 的 大 小 舍弃 数组 后 面 的 元 素 。 如 果 大 于 当前 元 素 个 数 ， 则 
增加 元 素 并 把 这 些 元 素 设置 为 nu11 




















a.insert (2, 3); 在 第 1 个 参数 指定 的 下 标的 元 素 前 ， 插 入 第 2 个 参数 中 指定 的 值 





























删除 参数 指定 的 下 标的 元 素 , 并 将 后 面 的 元 素 向 前 移动 一 个 下 标 。 
结果 是 数组 的 元 素 个 数 减 少 1 
ite = a.iterator(); 取得 数组 的 迭代 器 。 关 于 迭代 器 请 参考 A.3.7 节 























a.remove (3) ; 











0 ExhE va 图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


A.3 数据 类 型 | 327 





A.3.4 | 对 象 类 型 


对 和 象 类 型 是 由 多 个 成 员 组 成 的 类 型 。 数 组 通过 下 标 指 定 元 素 ， 对 象 则 是 通过 
成 员 名 称 指定 。 

对 象 通过 new_object () 函数 创建 。 创 建 的 对 象 通过 对 指定 的 成 员 名 称 赋 
值 的 形式 ， ae 

# 创建 空 的 对 象 


© = na OoalSsEl 

















# 添加 对 象 的 成 员 
Le el 
Ey = 20% 

















# 引用 对 象 的 成 员 


Dr 


对 象 类 型 是 引用 类 型 。 


不 仅 可 以 通过 函数 名 赋值 给 其 他 变量 ,还 可 以 通过 () 进行 调用 。 












































ET 
Nore Es rele 


c = a; # 将 函数 aa 代入 
c(); # ft 


可 以 使 用 关键 字 closure 在 表达 式 中 定义 一 个 无 名 的 函数 。 这 种 方式 被 称 
为 闭 包 (closure )。 





SEE 
Bra ee 克 


b8 

c0) 

ee 
候 ， 创 建 闭 包 的 函数 已 经 结束 的 情况 下 也 是 一 样 。 
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A.3.6 | 原生 指针 类 型 


原生 指针 类 型 是 保存 在 原生 函数 内 部 使 用 的 值 ( 如 文件 指针 ，FILE* ) 的 类 
型 。 在 原生 函数 外 的 原生 指针 类 型 只 能 够 进行 复制 和 等 值 比较 。 

现在 的 原生 指针 类 型 只 在 文件 指针 和 正则 表达 式 中 使 用 。 

原生 指针 类 型 可 以 由 原生 函数 定义 终结 器 ( finalizer )。 终结 需 是 在 GC 要 释 
放 原 生 指针 类 型 所 指向 的 对 象 时 执行 的 函数 。 但 是 ， 因 为 终结 器 的 执行 时 机 不 能 
被 应 用 程序 预测 ， 所 以 有 关 重 要 资源 的 释放 不 应 该 依赖 终结 器 。 


A.3.7 | 迭代 器 


迭代 器 ( iterator ) 是 表现 循环 的 类 型 。 

和 迭代 需 是 一 个 设置 了 一 些 闭 包 方 法 (method ) 的 对 象 ， 并 不 是 处 理 器 中 定义 
的 特殊 类 型 。 因 此 ， 在 用 户 程 序 中 也 可 以 定义 迭代 妖 。 

迭代 器 是 具有 以 下 方法 的 对 象 。 

first () : 返回 迭代 絮 中 的 第 一 个 元 素 。 

next () : 将 迭代 器 游标 向 后 移动 一 个 。 

is_done () : 迭 代 需 移动 到 超出 最 后 一 个 元 素 的 位 置 时 返回 true， 否 则 返 
回 false。 

current _item() : 返回 迭代 需 中 当前 的 元 素 。 

crowbar 的 数组 可 以 通过 iterator () 方法 得 到 数组 的 迭代 器 。 男 外 ， 在 使 
用 foreach 语法 的 时 候 ， 就 是 基于 迭代 顺 循 环 的 。 


在 crowbar 中 ， 异 名 是 被 设置 了 一 些 财 包 作 为 方法 的 对 象 。 可 以 使 用 原生 函 
数 new_exception() 来 创建 异常 。 

使 用 者 在 创建 “异常 ”的 时 候 ， 需 要 使 用 内 建 聘 数 create exception_ 
class () 。 这 个 函数 以 “ 父 类 ”为 参数 创建 一 个 新 的 异常 类 。 通 过 调用 这 个 类 
的 create () 方法 , 创建 属于 这 个 类 的 实例 。 
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# 在 构建 脚本 中 对 ArithmeticException 定义 的 描述 


Aritenmet lonecpt leon erecacedexecpt lonnelass (Rm lmnop non 





# 通过 create () 方法 生成 实例 。 
e = 人 GaeaEel 昌 有 
异常 实例 中 的 child_of () 方法 用 于 检查 异常 的 类 型 。 在 上 面 的 例子 中 ， 
ArithmeticException 是 RuntimeException 的 子 类 ，e 是 ArithmeticException 的 实 
例 ， 因 此 如 果 调 用 e.chilqd of (RuntimeException) 的 话 ， 传 人 上 面 两 个 类 
都 会 返回 true。 





























所 谓 表 达 式 ( expression )， 就 是 通过 运算 符 将 字面 量 或 者 标识 符 关 联 起 来 。 


A4.1 | 类 型 转换 


在 crowbar 中 使 用 双 目 运算 符 (+、-、*、/、%) 和 比较 运算 符 
(==、 (=、>、>=、<、<=) 时 ， op 的 类 型 型 不 同 的 话 ， crowbar 会 基于 下 面 的 规 
则 对 类 型 进行 扩展 。 

1. 不 论 左边 还 是 右边 ， 只 要 其 中 一 边 是 整数 ， 另 外 一 边 是 实数 的 时 候 ， 整 数 会 转换 
为 实数 。 
2. 在 左边 是 字符 串 右 边 是 逻辑 类 型 、 整 数 类 型 或 者 实数 类 型 的 时 候 ， 右 边 会 转换 为 







































































上 述 类 型 转换 ,在 算术 赋值 运算 符 (+=、-=、*=、/ 





op 











) 的 情况 下 同样 适用 。 


运算 符 一 览 


crowbar 的 运算 符 一 览 如 下 所 示 (优先 顺序 由 高 至 低 )。 
运算 符 将 有 学 
++ == () [] . 习 增 、 自 减 、 函 数 调用 、 引 
























































数组 元 素 、 引 











对 象 的 成 员 


本 
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( 续 ) 

运算 符 含义 
( 单 目 )-! 符号 反 转 、 逻 辑 非 
* / % 乘法 、 除 法 、 模 
所 三 加 法 、 减 法 。 加 法 运算 符 可 以 连接 字符 串 

比较 大 小 。 字 符 串 也 可 以 比较 大 小 ( 设计 以 C 语言 的 strcmp () 
ee 为 基准 ) 
二 等 值 比较 。 字 符 串 也 可 以 进行 比较 ( 比较 的 不 是 引用 而 是 值 ) 














逻辑 与 ( AND ) 运算 符 。 短 路 运算 符 在 表达 式 a && b 中 ， 如 果 










































































a 为 假 的 话 ，b 就 不 做 判断 了 
1 逻辑 或 ( OR ) 运算 符 。 短 路 运算 符 在 表达 式 a || b 中， 如 果 a 
为 真 的话 ，b 就 不 做 判断 了 
赋值 运算 符 。 在 crowbar 中 会 通过 最 初 的 赋值 创建 变量 。 另 外 ， 
= += -= *= /= $= 如 果 在 赋值 表达 式 前 面 加 上 final 的 话 ， 就 会 变 成 不 能 再 次 赋值 








的 常量 定义 
. 逗号 运算 符 。 以 从 左 到 右 的 顺序 计算 表达 式 ， 返 回 右边 表达 式 的 值 

在 crowbar 中 ， 只 存在 后 管 的 自 增 和 上 自 减 运算 符 。 并 且 ， 其 动作 与 C 等 语言 
中 的 前 置 运 算 符 效果 相同 (不 会 等 到 最 后 ， 而 是 立刻 自 增 表达 式 的 值 )。 


















































语句 


A.5.1 | 表达 式 语句 


所 谓 表 达 式 语句 ( expression statement )， 就 是 在 表达 式 后 面 加 上 分 号 。 















































# 调用 print () 函数 的 表达 式 ， 后 面 加 上 分 号 




















Bre nelle on 


























# 自 增 表达 式 后 面 加 上 分 号 



































# 无 副作用 的 表达 式 也 可 以 成 为 表达 式 语句 ， 但 没有 任何 意义 
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A.5.2 | if 语句 


if 语句 是 根据 条 件 进行 判断 并 进行 分 支 处 理 的 语句 。 


if (条 件 表达 式 1) { 
# 条 件 表 达 式 1 为 真 时 执行 的 处 理 。 
} elseif ( 条件 表 达 式 2) { 
# 条 件 表达 式 1 不 为 真 ， 且 条 件 表达 式 2 为 真 时 执行 的 处 理 
} else { 
# 所 有 条 件 表达 式 都 不 为 真 时 执行 的 处 理 。 

















































































































} 




















elsif 子 句 和 else 子 句 都 是 可 以 省 略 的 。 另 外 ， 可 以 编写 任意 多 
个 elsif 子 句 。 


与 C 等 语言 不 同 的 是 ， 即 使 只 包含 一 行 语句 ， 也 不 能 省 略 花 括号 ({】} )。 


A.5.3 | while 语句 


while 语句 是 进行 循环 操作 的 语句 。 


标识 符 : 
while (条 件 表 达 式 ) { 
# 在 条 件 表 达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 


















































} 
“标识 符 :” 的 部 分 被 称 为 标签 ( label )。 标 签 可 以 省 略 。 
与 i£ 语句 相同 ， 即 使 只 包含 一 行 语句 ， 也 不 能 省 略 花 括号 ( {) )。 


for 语句 





for 语句 是 进行 循环 操作 的 语句。 
标识 符 : 
for ( 第 1 表达 式 ， 第 2 表达 式 ;第 3 表达 式 ) { 


# 在 第 2 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 












































} 


“标识 符 :” 的 部 分 被 称 为 标签 ( label )。 标 签 可 以 省 略 。 
让 我 们 先 看 一 段 for 语句 的 代码 : 
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# 创建 一 个 数组 


a -newiarsa( io 





# 循环 取得 数组 的 每 个 元 素 
fom = 0 a Te 
# 输出 每 个 元 素 
再 狼人 本 汪汪 ll 


} 
基于 上 面 这 段 代码 ， 其 中 的 第 1 表达 式 、 第 2 表达 式 、 第 3 表达 式 也 有 其 他 


















































的 叫 法 。 
第 1 表达 式 通 常 的 作用 是 对 判断 循环 是 否 需 要 继续 的 变量 进行 初始 化 ， 因 此 
也 叫 作 初始 化 表达 式 。 

















第 2 表达 式 通 常 的 作用 是 根据 初始 化 表达 式 中 创建 的 变量 ， 以 此 判断 是 否 需 
要 继续 循环 ， 因 此 也 叫 作 判 断 表 达 式 。 
第 3 表达 式 通 常 的 作用 是 重新 设置 循环 的 判断 条 件 〈 一 般 都 是 ++ 或 者 -- )， 
因此 也 叫 作 增 量 表达 式 。 
上 述 for 语句 中 ， 除 了 在 continue 时 会 执行 第 3 表达 式 之 外 ， 其 他 与 下 
面 的 while 语句 效果 相同 。 
第 1 表达 式 ; 
while (第 2 表达 式 ) { 


# 语句 
3 
































} 
第 1 表达 式 、 第 2 表达 式 、 第 3 表达 式 都 是 可 以 省 略 的 。 在 省 略 了 第 2 表达 
式 时 意味 着 永远 返回 真 。 


EE foreach 语句 


foreach 语句 是 利用 迭代 器 进行 循环 操作 的 语句 。 














标识 符 : 

foreach (变量 : 集合 ) { 
# 语句 

} 


“标识 符 :” 的 部 分 被 称 为 标签 ( label )。 标签 可 以 省 略 。 上 述 foreach 语句 


更 
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等 同 于 下 面 的 for 语句 。 





ES lite.is done(); ite.next()) { 
变量 = ite.current item(); 
这 本 


但 是 ， 实 际 上 在 foreach 语句 中 引用 不 到 迭代 器 ， 在 上 述 例 子 中 变 
量 ite 并 不 存在 。 


A.5.6 | return 语句 


return 语句 是 从 也 数 中 跳出 的 语句 。 
return 表达 式 ; 


在 省 略 表达 式 的 时 候 ， 该 函数 返回 nul11。 


A.5.7 | break 语句 


break 语句 是 用 于 跳出 循环 的 语句 。 

break 标识 符 ， 
标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 跳 出 最 内 侧 的 循环 。 
在 指定 了 标识 符 的 情况 下 ， 跳 出 持 有 同样 标识 符 的 循环 。 


A.5.8 | continue 语句 


continue 语句 用 于 跳 转 到 循环 的 末尾 。 
continue 标识 符 ; 
标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 以 最 内 侧 的 循环 为 对 象 。 
在 指定 了 标识 符 的 情况 下 ， 以 持 有 同样 标识 符 的 循环 为 对 象 。 
在 以 for 为 对 象 进行 continue 的 时 候 ，continue 后 会 紧 接着 计算 for 
语句 的 第 3 表达 式 。 


可 
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EE try 语句 


try 语句 是 用 于 执行 异常 处 理 的 语句 。 


try{ 
# 语句 
} catch ( 变量 名 ) { 


并 语句 








一 一 


JE 
记名 





} 

在 try 子 句 中 如 果 发 生 了 异常 就 会 执行 catch 子 句 。 发 生 的 异常 会 被 设置 
到 catch 子 句 声明 的 变量 中 。catch 子 句 和 finally 子 句 只 要 存在 其 中 的 任何 
一 个 ， 另 外 一 个 就 可 以 被 省 略 。 

无 论 异 常 是 否 发 生 ， 无 论 是 否 存在 catch 子 句 ，final1y 子 句 都 一 定 会 执 
行 。 在 try 子 句 或 者 catch 子 句 中 , 如 果 执 行 了 preak、continue、return 来 
中 断 处 理 ,那么 也 会 执行 finally 子 句 。 如 果 使 用 break、continue、 
return 来 中 断 finally 子 句 的 话 ， 相 比 finally 的 执行 结果 ，try 子 句 或 
者 catch 子 句 中 语句 的 执行 结果 会 更 优先 。 例 如 ，try 子 句 内 执行 了 return 
5;， 在 返回 前 执行 了 finally 子 句 中 的 return 3;， 在 这 种 情况 下 ， 最终 被 作 
为 返回 值 返回 的 是 5。 


A.5.10 | throw 语句 


throw 语句 是 用 于 抛 出 异常 的 语句 。 























throw e; 

e 在 通常 情况 下 会 使 用 通过 new_exception() 创建 的 异常 对 象 ， 但 是 整数 
类 型 等 其 他 所 有 类 型 都 可 以 被 throw。 

在 try 子 句 内 发 生 的 异常 , (如 果 有 的 话 ) 会 在 catch 子 句 中 被 捕捉 。 
当 catch 子 句 不 存在 或 者 异常 发 生 在 try 语句 之 外 的 时 候 ， 会 终止 当前 正 
在 执行 的 函数 并 返回 到 调用 者 (或 者 叫 上 一 层 ) 的 处 理 中 。 如 果 调 用 者 也 没 
有 catch 这 个 异常 的 话 ， 则 会 沿 着 调用 层级 回溯 ， 直 到 顶层 结构 。 如 果 项 层 结 
构 中 也 没有 捕捉 这 个 异常 ， 就 会 输出 栈 轨 人 迹 ( stack trace ) 并 终止 处 理 。 
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crowbar 中 的 栈 轨迹 在 调用 new_exception() 的 时 候 就 被 创建 了 。 


A.5.11 | global 语句 


global 语句 是 为 了 在 函数 内 引用 全 局 变量 而 使 用 的 语句 。 在 crowbar 中 ， 
如 果 不 使 用 global 语句 进行 声明 的 话 ， 在 函数 内 就 访问 不 到 全 局 变量 。 


# 引用 了 STDIN，STDOUT 两 个 全 局 变量 
global STDIN,STDOUT; 















































函数 使 用 以 下 形式 定义 。 


function 函数 名 ( 参数) { 
#0 





} 
请 参考 下 面 的 示例 。 


# 接收 两 个 参数 并 返回 它们 的 和 的 函数 


Fumetaon sm 





return a + b; 


} 


局 部 变量 











在 函数 内 声明 的 变量 就 是 局 部 变量 ( local variable )。 
局 部 变量 的 作用 域 只 在 当前 函数 内 。 与 C 语言 不 同 的 是 ， 函 数 内 的 程序 块 并 
不 会 形成 作用 域 















































中 也 就 是 说 ， 局 部 变量 的 作用 域 是 当前 函数 ， 而 不 是 当前 程序 块 。 一 一 译 者 注 








) 
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以 下 将 要 介绍 的 是 在 本 书 中 Diksam 最 终 版 本 ( book_ver.0.4 ) 的 设计 。 与 附 
录 A 一样 ， 内 容 并 不 是 很 严谨 。 




















程序 结构 


B.1.1 | 构成 程序 的 要 素 


Diksam 的 程序 由 以 下 要 素 构 成 。 
1. 声明 部 分 

声明 部 分 由 require 声明 和 rename 声明 组 成 。 声 明 部 分 必须 在 源 文件 的 
开头 ， 但 也 可 以 省 略 。 


2. 顶层 结构 
顶层 结构 (toplevel ) 由 语句 ( statement ) 组 成 。Diksam 的 程序 从 处 理 咒 中指 
定 的 源 文件 的 顶层 结构 开始 执行 。 


3. 函数 定义 或 声明 

函数 定义 (function definition ) 定义 可 以 (可能) 从 其 他 位 置 调用 的 函数 。 在 
顶层 结构 的 语句 顺序 执行 时 会 忽略 函数 定义 。 因 为 函数 允许 回溯 引用 ， 所 以 其 定 
义 的 位 置 既 可 以 在 调用 的 位 置 之 前 ， 也 可 以 在 调用 的 位 置 之 后 。 

函数 声明 ( function declaration ) 只 声明 了 滑 数 的 签名 ( signature )。 对 于 也 数 
声明 来 说 ， 必 须 存在 与 其 对 应 的 定义 。 
4. 类 型 定义 

类 型 定义 包括 类 定义 ( class definition )、 接 口 定义 ( interface definition )、 枚 举 
类 型 定义 ( enumerated type definition ) 和 delegate 类 型 定义 ( delegate type defini- 


















































tion )。 


类 型 定义 是 为 了 定义 可 能 在 其 他 位 置 使 用 的 数据 类 型 。 与 函数 一 样 ， 会 在 顶 
































图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


B.1 程序 结构 | 337 





层 结构 的 语句 执行 时 被 忽略 ， 并 且 人 允许 回 淹 引 用 。 
下 面 是 几 个 示例 。 
仅 由 顶层 结构 组 成 的 Diksam 程序 : 
printin("hello, world."); 
开头 含有 声明 部 分 的 Diksam 程序 : 


// 将 标准 函数 println 改名 为 pzrint_1ine 
rename daregame lone ri ne 

















Bram le en 
包含 函数 定义 的 Diksam 程序 : 


// 函数 定义 
vod evn 
reheate ln (We lle, rehellole Wl) 


) 

















// 调用 定义 的 函数 


生硬 部 


包含 类 定义 的 Diksam 程序 : 








mm 


public class Point { 

private double x; 

is ou 

vod ere 
Dee Eh 

} 

constructor initialize (double x, double y){ 
ln 
elm Ye Ss wp 


} 





// 创建 Point 类 的 实例 

aa EEC 2 
// 输出 p 的 内 容 

re 


 B.1.2 | 分 割 编译 


通过 声明 部 分 的 require 声明 指定 的 包 (package )， 达 到 能 够 使 用 在 其 他 
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源 文件 中 定义 的 函数 和 类 的 目的 。 

在 Diksam 中 ， 包 由 一 个 源 文件 (扩展 名 .dkh ) 或 者 两 个 源 文件 (扩展 
名 .dkh 和 .dkm ) 的 组 合 组 成 。 

下 面 的 例子 通过 require 了 hoge.piyo.fuga 包 ,达到 了 可 以 使 用 fuga. 
dkh 中 定义 的 类 和 函数 的 目的 。 

require hoge.piyo.fuga; 

在 .dkh 文件 中 描述 了 只 有 在 函数 的 签名 声明 的 情况 下 ， 实 际 调 用 函数 的 时 候 
处 理 器 才 会 对 fuga .dkh 对 应 的 实现 文件 fuga .dkm 进行 搜索 并 编译 /加 载 。 这 
种 机 制 被 称 为 动态 加 载 ( dynamic load )。 

被 require 文件 的 搜索 路 径 ， 即 环境 变量 DKM REQUIRE SEARCH PATH,， 
在 UNIX 环境 中 使 用 逗号 分 隔 ， 在 Windows 环境 中 使 用 分 号 分 隔 。 因 为 Diksam 
的 包 名 和 文件 路 径 的 层级 是 一 致 的 ， 所 以 只 需要 指定 搜索 路 径 就 可 以 以 此 为 起 
点 ， 通 过 包 名 的 层级 搜索 文件 了 。 

在 没有 设 定 DKM_REQUIRE_SEARCH_PATH 的 情况 下 ， 当 前 目录 将 成 为 叭 
的 搜索 路 径 。 

另外， 动态 加 载 时 的 搜索 路 径 可 以 通过 环境 变量 DKM LOAD SEARCH _ 
PATH 取得 。 

diksam.lang 包 已 经 默认 为 require,， 此 使 用 者 无 需 自 己 再 进 
行 require。 


被 require 的 源 文件 中 ， 顶 层 结构 将 被 忽略 ， 不 会 执行 。 


 B.1.3 | 解决 命名 冲突 


在 require 了 多 个 包 的 时 候 ， 很 可 能 会 发 生 类 名 、 函 数 名 的 命名 冲突 。 在 
这 个 时 候 ， 可 以 通过 声明 部 分 的 rename 声明 为 标识 符 改 名 ， 以 此 方法 来 回避 命 
名 冲突 。 

下 面 是 将 diksam.1ang 包 下 面 的 print 子 数 改名 为 myprint 的 例子 。 







































































rename diksam.lang.print myprint; 
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 B.1.4 | 关于 全 局 变量 的 链接 


在 顶层 结构 中 声明 的 变量 (全 局 变量 ) 相对 于 源 文件 独立 的 ， 不 能 进行 链 
接 。 如 果 想 要 让 某 个 包 的 全 局 变量 被 其 他 的 包 访问 的 话 ， 就 必须 要 声明 get_ 
xxx () 、set xxx() 这 样 的 函数 。 


PP 语法 规则 
 B.2.1 | 源 文 件 的 字符 编码 


Diksam 的 源 文 件 使 用 与 处 理 需 相同 的 字符 编码 。 当 前 确定 的 是 在 UNIX 环境 
中 为 EUC 和 UTF-8， 在 Windows 环境 中 为 GB2312。 除 了 写 注 释 和 定义 字符 串 字 
面 量 ， 其 他 情况 下 不 能 使 用 非 ASCII 字符 。 
































关键 字 





面 这 些 单词 作为 Diksam 的 关键 字 ， 不 能 作为 变量 名 、 函 数 名 、 类 名 等 
使 用 。 


abstract boolean break case catch class const constructor continue 
defavleeoelecgate do doublesel ee el ID Els Ene Eo 





Eoneacho ne nestonceot me merEace ne eoneer nw nu ee 
Diarrarvespublie nam ee ue en ne now 
throws true try virtual void while 


( 注 ) foreach 是 为 将 来 准备 的 关键 字 ， 现 在 并 没有 使 用 。 


 B.2.3 | 空白 字符 的 处 理 


空格 (ASCII 码 的 0x20 )、 制 表 符 和 换行 符 在 源 文件 中 除了 区 分 不 同 的 标识 
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符 外 没有 其 他 含义 。 


注释 


在 Diksam 中 可 以 使 用 以 下 两 种 注释 方式 。 


e 以 /* 开始 以 */ 结束 的 注释 ， 这 种 注释 不 能 和 区 套 使 用 。 
@ 以 // 开始 直到 本 行 结束 的 注释 


 B.2.5 | 标识 符 


被 当做 变量 名 、 函 数 名 、 类 名 等 使 用 的 标识 符 ， 需 要 遵从 下 面 的 规则 。 


e 第 一 个 字符 必须 是 英文 字母 ( A~z，a~z ) 或 者 是 下 划 线 。 
@ 从 第 二 个 文字 开始 可 以 是 英文 字母 、 下 划 线 或 数字 ( 0~9 )。 


Diksam 的 标识 符 中 不 允许 使 用 中 文 等 未 被 ASCII 字符 集 涵盖 的 字符 。 























































































































字面 量 


1. 真 假 值 字面 量 
真 假 值 字面 量 只 有 true( 真 ) 和 false( 假 )。 


2. 整数 字面 量 
整数 字面 量 由 “0” 或 者 “1~9 后 面 跟着 0 个 或 以 上 的 0~9” 组 成 。 
如 果 在 前 面 加 上 “0x” 或 者 “0X” 前 级 的 话 ， 可 以 表示 十 六 进 制 整 数 。 
目前 为 止 还 不 支持 八进制 表示 方式 。 

3. 实数 字面 量 
实数 字面 量 由 “1 个 以 上 的 0~9 的 组 合 、 点 、1 个 以 上 的 0~9 的 组 合 ” 组 成 。 
.5 或 者 1. 都 不 是 实数 字面 量 。 












































量 
符 串 字面 量 是 由 双 引 号 括 起 来 的 字符 串 。 在 字符 串 字 面 量 中 \n 表示 换 
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行 ，\t 表示 制 表 符 ，\\ 表示 \。 


5. null 字面 量 
nul1l 字面 量 用 来 表示 引用 类 型 没有 指向 任何 值 。 
6. 数组 字面 量 
在 花 括 号 {} 中 将 元 素 用 逗号 分 开 并 对 元 素 进行 初始 化 就 创建 了 数组 字面 量 。 
数组 类 型 为 该 字面 量 中 第 一 个 元 素 的 类 型 的 数组 。 最 后 一 个 元 素 的 后 面 有 没有 去 
号 都 可 以 。 


JP 机 数据 类 型 
 B.3.1 | 基础 类 型 


Diksam 存在 以 下 基础 类 型 。 



































1. void 类 型 ( void ) 

void 类 型 表示 也 数 是 没有 返回 值 的 特殊 类 型 。 只 能 作为 函数 或 者 方法 的 返 
回 值 使 用 。 
2. 逻辑 类 型 ( boolean ) 

可 以 是 true 或 者 false。 





3. 整数 类 型 (int ) 
表示 整数 的 类 型 。 能 够 表达 的 范围 与 编译 右 以 及 编译 VM 的 C 语 言 环境 
的 int 类 型 一 致 。 











= 

















4. 实数 类 型 ( double ) 
表示 实数 的 类 型 。 能 够 表达 的 范围 与 编译 融 以 及 编译 VM 的 C 语 言 环境 
的 double 类 型 一 致 。 









































5. 字符 串 类 型 ( string ) 
表示 字符 串 的 类 型 。 其 内 部 表现 形式 为 编译 器 以 及 编译 VM 时 C 语言 环 
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境 下 的 宽 字 符 串 。 字符 串 类 型 属于 引用 类 型 。 但 是 ， 因 为 字符 串 本 身 不 能 改变 
( immutable )， 所 以 使 用 者 没有 必要 意识 到 它 是 一 个 引用 类 型 。 


 B.3.2 | 类 /接口 


类 和 接口 都 属于 用 户 自 定义 类 型 。 
关于 类 定义 和 接口 定义 的 详细 内 容 请 参考 B.7 节 。 
类 和 接口 都 是 引用 类 型 。 


 B.3.3 | 派生 类 


派生 类 型 是 由 基础 类 型 、 类 、 接 口 派 生出 来 的 类 型 。 
存在 以 下 两 种 派生 类 型 。 
1. 数组 类 型 
Diksam 的 数组 类 型 ， 其 元 素数 无 须 在 声明 时 决定 ， 是 可 以 动态 创建 的 引用 


















































冰 
嵌 


2. 函数 类 型 

函数 和 方法 都 是 函数 类 型 。 函 数 类 型 不 存在 变量 ， 并 可 以 赋值 给 适当 
的 delegate 类 型 。 

数组 类 型 可 以 使 用 递归 。 

int 类 型 数组 的 数组 : 

int [] [] a; 

困 数 类 型 通过 delegate 类 型 可 以 实现 “ 子 数 的 数组 ” “返回 函数 的 卫 
数 ”等 。 


ER 放 闪 类 型 





















































站 
刁 
状 
圭 
[Er 
泣 
一 
到 
还 
i 
出 
车 
[Ey 
知 
sh 





一 个 元 素 后 面 有 没有 逗号 都 可 以 。 
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枚 举 类 型 的 值 ( 枚 举 ) 如 下 所 示 ， 使 用 枚 举 类 型 名 称 . 枚 举 名 称 的 形式 表示 。 
Fruits .ORANGE 
枚 举 类 型 在 参与 加 法 运算 (使 用 + 运算 符 ) 时 ， 如 果 左 边 是 字符 串 ( 枚 举 类 
型 在 右边 ) 的 话 ， 枚 举 类 型 会 转换 为 字符 串 。 
枚 举 类 型 可 以 使 用 比较 运算 符 (==、!=、>、>=、<、<=) 和 switch 判断 
分 文 。 


EG delegate 类 型 


delegate 类 型 是 指向 孔 数 的 引用 类 型 。 通 过 在 关键 字 delegate 后 面 加 上 
与 函数 签名 相同 的 形式 定义 。 

下 面 的 实例 以 一 个 Window、 两 个 int 以 及 一 个 MouseButton 枚 举 为 参 
数 , 返回 值 为 void 的 delegate 类 型 (在 后 述 Windows 版 的 Diksam 中 会 被 实际 使 
用 到 )。 


// 在 Window 按 下 鼠标 的 事件 


delegate void MouseButtonDownProc (Window window, int x, int y, 













































































MouseButton button) ; 
通过 上 述 类 型 定义 ， 就 可 以 像 下 面 这 样 声 明 delegate 类 型 的 变量 了 。 
MouseButtonDownproc mouse button handler; 
也 可 以 定义 把 aelegate 类 型 作为 参数 或 者 函数 类 型 的 返回 值 。 
在 表达 式 中 ， 通 过 单独 的 函数 名 就 可 以 创建 函数 类 型 的 值 。 函 数 类 型 的 值 可 
以 赋值 给 与 其 具有 互 换 性 的 delegate 类 型 的 变量 ,还 可 以 像 函 数 的 实际 参数 那 
样 ， 作 为 参数 进行 传递 。 


void mouse button func(Window window, int x, int y, MouseButton button){ 









































} 











// 在 Window 对 象 中 按 下 鼠标 的 时 候 调 









































二 
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候 























// 为 了 处 理 这 个 事 人 














将 mouse_button func 作为 参数 传递 进去 


window.set mouse button down proc(mouse button func); 





delegate 类 型 








的 变量 不 仅 可 以 赋 函 数 ， 
delegate 类 型 的 变量 会 将 方法 对 应 的 类 实例 一 并 保存 起 来 。 














还 可 以 赋 方 法 。 在 赋 方 法 的 时 


给 delegate 类 型 的 变量 赋值 ， 需 要 满足 以 下 条 件 。 





1. 赋值 的 函数 或 者 方法 ， 必 须 与 被 赋值 的 delegate 类 








2. 赋值 的 函数 或 者 方法 的 参数 类 型 (本 








类 型 一 致 9 


或 者 是 delegate 的 参数 类 型 





日 对 应 地 )， 

















3. 赋值 的 函数 或 者 方法 的 返 





口 


值 类 型 ， 





























4. 赋值 的 方法 在 throws 中 丈 




















列 出 的 范围 小 。 














致 ， 或 者 是 delegate 返 





器 





值 类 型 的 子 类 





 B.3.6 | 内 建 方法 


型 的 参数 数量 一 致 。 
必须 与 被 赋值 的 delegate 的 参数 


的 父 类 。 











必须 与 被 赋值 的 delegate 的 返回 值 类 型 一 





oO 




















出 的 异常 范 夺 

















要 比 被 赋值 的 delegate 在 throws 中 


在 数组 和 字符 串 类 型 中 ， 拥 有 一 些 内 建 方法 。 














数组 的 内 建 方法 如 下 所 示 。 
形式 含义 
. 向 数组 的 末尾 增加 元 素 。T 的 类 型 必须 是 可 以 赋值 
void add(T value) ; 
给 数组 元 素 的 类 型 
int size(); 获取 数组 的 元 素 个 数 





void resize(int new size); 





改变 数组 的 元 素 个 数 。 如 果 新 指定 的 大 小 小 于 当前 
数组 的 元 素 个 数 ， 则 根据 新 的 大 小 舍弃 数组 后 面 的 


























元 素 。 如 果 比 当前 大 小 大 ， 则 增加 元 素 并 把 这 些 元 
素 设置 为 该 类 型 的 默认 值 





void insert (int pos, 


T value); 


在 指定 下 标 ( pos ) 的 元 素 前 
T 的 类 型 必须 是 可 以 赋值 给 数组 元 素 的 类 型 

















面 插入 value 指定 的 值 。 

















void remove (in 





EBOB): 








字符 串 的 内 建 方法 如 下 所 示 。 


图 灵 社 区 会 


删除 指定 下 标 
移动 一 个 下 标 。 结 果 是 数组 的 元 素 个 数 减少 了 1 个 














面 的 元 素 向 前 











( pos ) 的 元 素 ， 并 将 后 
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形式 含义 
int length(); 获取 字符 串 的 长 度 
截取 字符 串 ， 并 返回 包含 截取 内 容 的 新 字符 串 。 
string substr(int pos, int len); 第 1 个 参数 指定 开始 截取 的 位 置 ( 第 1 个 字符 是 
0 )， 第 2 个 参数 指定 要 截取 的 长 度 

















表达 式 ( expression ) 是 由 运算 符 连接 起 来 的 单 目 表达 式 。 


 B.4.1 | 单 目 表达 式 


单 日 表达 式 有 以 下 几 种 。 
e@ 字面 量 
e@ 标识 符 。 虽 然 变量 名 常量 名 .函数 名 是 单 目 表达 式 ,但 类 名 等 类 型 的 名 称 不 是 表达 式 。 
e this。 表 示 在 类 的 方法 内 指向 当前 实例 的 引用 。 
e super。 在 类 的 方法 内 ， 调 用 超 类 的 方法 时 使 用 。 
e@ new 表达 式 。 具 体 的 使 用 方法 请 参考 B.7.6 节 。 

e 枚 举 。 


 B.4.2 | 类 型 转换 


在 Diksam 中 ， 具 备 了 以 下 条 件 时 会 进行 自动 转型 。 


晶 双 目 运算 符 的 类 型 转换 
双 目 算数 运算 符 (+、-、*、/、% ) 以 及 比较 运算 符 ( 、!=、>、>=、<、<=) 在 
两 边 类 型 不 一 致 的 时 候 , 会 根据 以 下 规则 进行 类 型 扩展 。 
1. 无 论 左 边 还 是 右边 ， 只 要 其 中 一 边 是 整数 ( int )， 另 外 一 边 是 实数 ( double ) 的 
时 候 ， 整 数 ( int ) 会 转换 为 实数 ( double )。 
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发 
所 
计 
闻 
和 
改 
外 





边 会 转换 为 字符 串 。 


string ) 的 情况 下 , 仅 限 于 加 法 运算 ( 运 自 


























符 为 + ) 的 时 候 , 右 


上 述 类 型 转换 , 在 算术 赋值 运算 符 (+=、-=、*=、/=、%= ) 的 情况 下 同样 适用 。 


和 赋值 时 的 类 型 转换 




















1. 把 类 赋值 给 类 的 时 候 ， 当 左边 是 右边 的 超 类 或 者 被 实现 的 接 


型 ( up cast )。 


口 时 ， 会 进行 向 上 转 


2. 右边 是 int 类 型 ， 左 边 是 double 类 型 的 时 候 ， 右 边 会 转换 为 double 类 型 。 











3. 右边 是 double 类 型 ， 左 边 是 int 类 型 的 时 候 ， 右 边 会 转换 为 int 类 型 。 





运算 符 一 览 


Diksam 的 运算 符 一 览 如 下 所 示 【( 优先 顺序 从 高 至 低 )。 


运算 符 


含义 





instanceof :: 类 型 : 


++ -- () [] . 


























自 增 、 自 减 、 函 数 调用 、 引 用 数组 元 素 、 引 












































对 象 


的 成 员 、 类 的 类 型 检查 ( 与 Java 的 设计 相同 入 


下 转型 





























符号 反 转 、 逻 辑 非 





乘法 、 除 法 、 模 









































加 法 、 减 法 。 加 法 运算 符 可 以 用 于 连接 字符 串 











比较 大 小 。 字 符 串 也 可 以 比较 大 小 
的 stzcmp () 为 基准 ) 























( 设计 以 C 语言 












































用 而 是 值 ) 


等 值 比较 。 字 符 串 也 可 以 进行 比较 ( 比较 的 不 是 引 














逻辑 与 ( AND ) 运 
b 中 ， 如 果 a 为 真 ，b 就 不 做 判断 了 











il 符 。 短 路 运算 符 在 表达 式 a && 





逻辑 或 ( OR ) 
中 ， 如 果 a 为 真 ，b 就 不 做 判断 了 





























运算 符 。 短 路 运算 符 ， 在 表达 式 a | b 























赋值 运算 符 。 含 义 与 C 语言 中 的 相同 

















可 右边 表达 式 的 值 














在 Diksam 中 ， 只 存在 后 置 的 自 














中 前 置 的 运算 符 效 果 相同 〈 不 会 等 至 
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EC 二 二 


自 增 表达 式 的 值 )。 


立交 
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增 和 自 减 运 算 符 。 并 且 ， 其 动作 与 C 等 语言 
而 是 
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EE 声明 语句 


声明 语句 (declaration statement ) 是 进行 变量 声明 的 语句 。 


明 语句 为 


类 型 变量 名 = 初始 化 表达 式 ; 
这 样 的 形式 (“= 初始 化 表达 式 ” 的 部 分 被 称 为 初始 化 ( initializer ) )。 
为 声明 语句 加 上 final， 可 以 防止 对 应 变量 的 初始 值 被 覆盖 (禁止 再 次 
赋值 )。 
final int a = 10; 
在 final 的 声明 语句 中 ， 如 果 不 进行 初始 化 就 会 发 生 编 译 错误 。 
使 用 const 关键 字 声 明 常 量 。 


const HOURS IN DAY = 24;// 一 天 24 小 时 
const MINUTES IN DAY = HOURS IN DAY * 60;// 1 天 24 x 60 分 


在 常量 的 声明 中 ， 因 为 通过 初始 值 可 以 判断 类 型 ， 所 以 const 无 需 指定 类 型 。 


EE 表达 式 语句 


所 谓 表 达 式 语句 ( expression statement ) 就 是 在 表达 式 后 面 加 上 分 号 。 

























































































// 调用 print () 函数 的 表达 式 后 面 加 上 分 号 
reheate (Waele ene 




















// 自 增 表达 式 后 面 加 上 分 号 


i++; 



































// 无 副作用 的 表达 式 也 可 以 成 为 表达 式 语句 ， 但 没有 任何 意义 
SR 
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EE if 语句 


if 语句 是 根据 条 件 判断 并 处 理 分 支 的 语句 。 


VE 
// 条 件 表达 式 1 为 真 时 执行 的 处 理 。 
) elsif (条 件 表达 式 2) { 
// 条 件 表达 式 1 不 为 真 ， 且 条 件 表达 式 2 为 真 时 执行 的 处 理 
} else { 
// 所 有 条 件 表达 式 都 不 为 真 时 执行 的 处 理 。 




























































































} 
elsif 子 名 和 else 子 名 都 是 可 以 省 略 的 。 男 外 ， 可 以 编写 任意 多 
个 elsif 子 句 。 与 C 等 语言 不 同 的 是 ， 只 包含 一 行 语句 也 不 能 省 略 花 括号 ({} )。 


 B.5.4 | switch 语句 


switch 语句 是 进行 多 分 支 处 理 的 语句 。 


switch (a) 




















case 1 { 
// a 等 于 1 时 执行 
} case 2,3 { 
// a 等 于 2 或 3 时 执行 
} default { 
// a 不 等 于 上 面 的 1、2、3 时 执行 























} 
Diksam 的 switch 语句 与 C 语言 的 fallthrough 不 同 。 在 匹配 了 一 个 case 之 
后 ， 即 使 没有 在 分 支 中 写 break， 也 不 会 交 由 下 一 个 case 处 理 。 另 外 ， 
各 case 子 句 必须 使 用 花 括 号 ({} ) 括 起 来 。 
在 针对 多 个 值 进行 相同 处 理 的 时 候 ， 值 之 间 以 逗号 分 隔 。 
如 果 没 有 匹配 任何 一 个 case 子 句 的 话 ， 就 会 执行 default 子 句 。 
各 case 子 句 在 以 下 代码 成 立时 就 会 执行 。 


switch 中 描述 的 表达 式 == case 中 描述 的 表达 式 









































虽然 只 能 使 用 == 运算 符 ， 但 是 表达 式 的 类 型 没有 限制 。 然 而 ， 在 == 两 边 为 
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了 匹配 类 型 会 进行 类 型 转换 ， 在 switch 中 却 不 会 进行 类 型 转换 。 


 B.5.5 while 语句 


while 语句 是 进行 循环 操作 的 语句 。 


标识 符 : 
while ( 条件 表 达 式 ) { 
// 在 条 件 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 





























} 

















“标识 符 :” 的 部 分 被 称 为 标签 ( label )。 标 签 可 以 省 略 。 
与 if£ 语句 相同 ， 即 使 只 包含 一 行 语句 也 不 能 省 略 花 括号 ( { } )。 


EG do while 语句 


do while 语句 是 进行 后 判断 型 的 循环 操作 语句 。 


标识 符 : 
Ge 

// 这 个 位 置 的 代码 最 初 必须 执行 一 次 ， 

// 之 后 ， 在 条 件 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 
} while ( 条件 表达 式 ) ; 


“标识 符 :” 的 部 分 被 称 为 标签 ( label )s 标签 可 以 省 略 。 
与 i£ 语句 相同 ， 即 使 只 包含 一 行 语句 也 不 能 省 略 花 括号 ( { } )。 





















































for 语句 





for 语句 是 进行 循环 操作 的 语句 。 


标识 符 : 
6E (1 2 7) 


// 在 第 2 表达 式 为 真 的 情况 下 ， 此 处 的 代码 会 反复 执行 。 












































} 
“标识 符 :” 的 部 分 被 称 为 标签 ( label )。 标 签 可 以 省 略 。 上 述 for 语句 ， 除 














了 在 continue 时 会 执行 第 3 表达 式 之 外 ， 其 他 与 下 面 的 while 语句 效果 相同 。 























) 
的 ， 
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ES 

while (第 2 表达 式 ) { 
# 语句 
2 

} 


第 1 表达 式 、 第 2 表达 式 、 第 3 表达 式 都 是 可 以 省 略 的 。 在 省 略 了 第 2 表达 
式 时 ， 意 味 着 永远 返回 真 。 











= 更生 : return 语句 





return 语句 是 从 函数 中 跳出 的 语句 。 
return 表达 式 7 


在 函数 为 void 类 型 的 时 候 ， 如 果 写 了 return 表达 式 的 话 会 报错 。 


Eg break 语句 


break 语句 是 用 于 跳出 循环 的 语句 。 

break 标识 符 ; 
标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 跳 出 最 内 侧 的 循环 。 
在 指定 了 标识 符 的 情况 下 ， 中 出 持 有 同样 标识 符 的 循环 。 


ES continue 语句 


continue 话 句 用 于 跳 转 到 循环 的 末尾 。 


continue 标识 符 ; 





标识 符 可 以 省 略 。 在 省 略 的 情况 下 ， 以 最 内 侧 的 循环 为 对 象 。 
在 指定 了 标识 符 的 情况 下 ， 以 持 有 同样 标识 符 的 循环 为 对 象 。 
在 以 for 为 对 象 进 行 continue 的 时 候 ，continue 后 会 紧 接 着 对 for 话 








句 的 第 3 表达 式 进 行 计算 。 
在 以 do while 为 对 象 进 行 continue 的 时 候 ， 会 对 下 一 次 的 条 件 表达 式 
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进行 计算 ， 如 果 结 果 为 假 则 终止 循环 。 


ES try 语句 


try 语句 是 用 于 执行 异常 处 理 的 语句 。 


Bey 
// 语句 

} catch ( 异常 类 型 变 
// 语句 

} catch ( 异常 类 型 变 
// 语句 

本 ESTI 
// 语句 

















} 

在 try 子 句 中 如 果 发 生 了 异常 ， 就 会 执行 catch 子 句 ， 会 在 catch 子 句 
中 按照 从 上 到 下 的 顺序 搜索 与 发 生 的 异常 类 匹配 的 catch 子 句 。 如 果 有 匹配 
的 catch 子 句 ， 则 会 转移 处 理 位 置 ( 抛 给 上 一 层 或 者 终止 处 理 )。 发 生 的 异常 
会 被 设置 到 catch 子 句 声明 的 变量 中 。 这 个 变量 默认 为 final, 不 可 以 再 次 
赋值 。 

finally 子 句 无 论 异常 是 否 发 生 ， 也 不 论 是 否 有 匹配 的 catch 子 外， 都 一 定 会 
执行 。 在 try 子 句 或 者 catch 子 句 中 即使 是 执行 了 break、continue、return 来 
中 断 处 理 ， 也 会 执行 fijnally 子 句 。 如 果 使 用 preak、continue、return 来 中 
汤 finally 子 句 的 话 ， 就 会 发 生 编译 错误 。 


EE throw 语句 


throw 语句 是 用 于 抛 出 异常 的 语句 。 
在 通常 情况 下 ， 可 以 像 下 面 这 样 显 式 地 为 表达 式 指定 异常 。 
throw e; 
在 try 子 句 内 发 生 的 异常 ， 如 果 存 在 与 其 对 应 的 catch 子 句 的 话 ， 就 
会 被 catch 子 句 捕 获 。 如 果 不 存 在 与 其 对 应 的 catch 子 句 ， 或 者 异常 发 生 
在 try 语句 之 外 的 时 候 ， 会 终止 当前 正在 执行 的 函数 并 返回 到 调用 者 (或 者 叫 
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上 一 层 ) 的 处 理 中 。 如 果 调 用 者 也 没有 catch 这 个 








已 党 


, 
开胃 


的 话 ， 则 会 沿 着 调用 层 





级 回溯 直到 顶层 结构 。 如 果 顶 层 结 果 中 也 没有 捕捉 这 个 异常 的 话 ， 就 会 输出 栈 轨 


迹 ( stack trace ) 并 终止 处 理 。 
Diksam 的 栈 轨迹 在 异常 


Nr 
中 





throw 的 时 候 会 被 清空 ， 并 在 返回 到 调用 函数 的 层 











级 或 者 中 断 顶 层 结构 执行 的 时 候 被 再 











次 设置 。 








因此 ， 在 catch 子 句 中 直接 再 次 抛 出 捕获 的 异常 时 ， 如 果 不 想 清除 当前 的 


栈 轨迹 ， 可 以 像 下 面 这 样 单独 使 有 


throw; 





H throw; 


函数 通过 如 下 的 形式 进行 定义 。 
类 型 函数 名 ( 参数 序列 ) throws 子 句 { 
可 


二 


throws 子 句 可 以 省 略 。throws 描述 了 在 这 个 函数 中 有 可 能 会 发 生 的 异常 ， 


用 逗号 分 隔 并 一 一 列 出 。 
如 下 例 所 示 。 
// 接收 两 个 整数 型 参数 并 返 


(me a nt ly 


return a + b; 

















int sum 


{ 
} 
// 以 数组 和 索引 值 为 参数 ， 


// 返回 指定 位 置 的 元 素 的 函数 。 
mt oetaat me aa 








它们 的 和 的 函数 


int index) 


throws ArrayIndexOfBoundsException { 


return arraylindex]; 


} 


函数 的 形式 参数 与 已 经 赋值 的 final 局 部 变量 的 使 用 方法 一 致 。 因 此 ， 




















图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 


B.6 函数 | 353 





能 赋值 给 形式 参数 。 


 B.6.2 | 函数 的 签名 声明 


当 函 数 被 定义 在 其 他 源 文件 中 的 时 候 ， 就 要 像 下 面 这 样 ， 以 描述 签名 声明 的 
方式 ， 让 调用 了 这 个 函数 的 表达 式 可 以 顺利 编译 。 
int func (bouble x) ; 
与 C 语 言 的 原型 声明 不 同 ， 在 Diksam 中 不 能 省 略 形式 参数 的 名 称 ( 上面 
的 x)。 男 外 ， 形 式 参 数 的 名 称 也 属于 这 个 类 型 的 一 部 分 ， 在 与 函数 定义 不 一 致 的 
时 候 就 会 发 生 错误 。 
例如 下 面 的 签名 声明 。 
void draw line(double x1, double yl, double x2, double y2); 
与 此 相对 ， 就 不 允许 像 下 面 这 样 的 函数 定义 。 


vouceorawnine (doublier del rodou ee Wo Ley 












































hol 


局 部 变 








在 函数 内 声明 的 变量 就 是 局 部 变量 ( local variable )。 

局 部 变量 的 作用 范围 是 满足 下 面 两 个 条 件 的 范围 〈 现 在 ， 局 部 变量 的 作用 范 
围 不 受 程序 块 的 影响 )。 

e@ 在 声明 之 

e@ 在 包含 其 声明 的 程序 块 内 

局 部 变量 的 生命 周期 随 着 它 所 在 函数 的 退出 而 终止 。 














oll 
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站 类 / 接 p 的 定义 
 B.7.1 | 类 定义 


类 通过 以 下 的 形式 进行 定义 。 





类 修饰 符 class 类 名 
: 超 类 ， 要 实现 的 接口 ( 多 个 ) { 
字段 、 方 法 、 构 造 方 法 的 定义 


























> 


类 修饰 符 有 以 下 两 种 。 

e 访问 修饰 符 ( access modifier )。 可 以 指定 为 public 或 者 不 指定 。 

e abstract 修饰 符 。 可 以 指定 或 者 不 指定 。 

访问 修饰 符 与 abstract 修饰 符 的 顺序 不 同 。 

当 访 问 修 饰 符 指 定 了 public 的 时 候 ， 这 个 类 就 可 以 被 别 的 包 使 用 了 。 如 果 
不 指定 的 话 ， 就 只 能 在 当前 包 中 使 用 。 
指定 了 abstract 的 类 被 视 为 抽象 类 ( abstract class )。 抽 象 类 不 能 通过 new 将 
例 化 。 相 反 ， 没 有 指定 apstract 的 类 被 称 为 具象 类 ( concrete class )， 其 中 












































4 
其 头 
台 b 
BE 


不 能 包含 apstract 方法 。 


超 类 和 要 实现 的 接口 与 Ct++、C# 相同 ,在 冒号 后 面 以 返 号 分 隔 并 一 一 列 出 
(顺序 不 同 )。 在 不 需要 继承 的 情况 下 ， 可 以 省 略 冒 号 。 

在 Diksam 中 对 于 类 来 说 只 能 单 继承 。 男 外 ， 在 Diksam 中 不 能 继承 具象 类 。 

接口 可 以 被 多 继承 。 


 B.7.2 | 接口 定义 


接口 通过 以 下 的 形式 定义 。 












































访问 修饰 符 interface 接口 名 { 
// 方法 定义 
} 
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接口 除了 只 能 记录 abstract 方法 外 ， 其 他 的 功能 与 类 相同 。 

访问 修饰 符 与 类 相同 ， 可 以 指定 或 者 不 指定 public。 接 口 一 定 要 加 
上 abstract， 如 果 不 指定 abstract 就 会 发 生 编译 错误 。 

在 Diksam 中 ， 接 口 不 能 继承 其 他 接口 。 


 B.7.3 | 字段 定义 


字段 通过 以 下 的 形式 定义 。 
访问 修饰 符 final 修饰 符 类 型 字段 名 初始 化 语句 ( 表达 式 ) ; 
针对 字段 的 访问 修饰 符 有 public、private 和 不 指定 。 它 们 拥有 不 
同 的 含义 ，public 可 以 在 其 他 包 中 使 用 ， 不 指定 的 话 可 以 在 本 包 内 被 使 
用 ，private 只 能 在 当前 类 内 被 使 用 。 
如 果 指 定 final 修饰 等 ， 这 个 字段 就 不 能 被 赋值 了 。 


 B.7.4 | 方法 定义 


方法 通过 以 下 的 方式 定义 。 


方法 修饰 符 类 型 方法 名 ( 参数 ， 可 以 是 多 个 ) throws 子 句 { 
语句 















































起 


与 国 数 定义 一 样 ，thzrows 子 句 可 以 省 略 。 另 外 ,在 加 上 了 abstract 修饰 
符 后 ， 可 以 不 描述 方法 体 (包含 了 语句 的 代码 块 )。 

方法 修饰 符 有 以 下 几 种 。 

@ 访问 修饰 符 。public、private、 不 指定 。 

e abstract 修饰 符 。 可 以 指定 或 者 不 指定 。 

@ virtual 修饰 符 、override 修饰 符 。 

没有 指定 Virtual 修饰 符 的 方法 不 能 重 写 。 另 外 ， 如 果 要 重 写 方法 的 话 ， 
必须 指定 override 修饰 符 。 


T 

















图 灵 社 区 会 员 leezom(superjavaman.zhangli@gmail.com) 专 享 尊重 版 权 VY! 


356 | 附录 B Diksam 语言 的 设计 


 B.7.5 | 方法 重 写 


在 子 类 中 定义 与 父 类 或 者 所 继承 接口 的 方法 同名 的 方法 被 称 为 方法 重 
写 ( method override )。 方 法 重 写 必须 满足 以 下 条 件 。 

1. 重 写 与 被 重 写 的 方法 ， 参 数 个 数 必须 一 致 。 

2. 进行 重 写 的 方法 的 参数 类 型 ( 相对 应 地 )， 必 须 与 被 重 写 方法 的 参数 类 型 一 致 ， 或 
EE 写 方法 的 参数 类 型 的 父 类 。 
3. 进行 重 写 的 方法 的 返回 值 类 型 ， 必 须 与 被 重 写 方法 的 返回 值 类 型 一 致 ， 或 者 是 被 
重 写 方法 的 返回 值 类 型 的 子 类 。 
4. 进行 重 写 的 方法 在 throws 中 列 出 的 异常 的 范围 要 比 被 重 写 方法 在 throws 中 列 

上 

















































































































































































































5. 进行 重 写 的 方法 的 访问 修饰 符 ， 要 比 被 重 写 方法 的 访问 修饰 符 的 限制 宽松 许多 。 


| B.7.6 | 构造 器 


构造 器 是 在 实例 创建 时 自动 调用 的 方法 。 
在 Diksam 中 ， 构 造 需 的 定义 需要 使 用 constructor 修饰 符 。 




















Buele coustrnetore mi 


// 记录 构造 器 的 处 理 





} 

上 面 的 例子 用 constructor 修饰 符 描述 了 与 类 型 名 名 称 相同 的 构造 方法 ， 
因此 必须 要 在 方法 前 加 上 public 和 virtual 方法 修饰 符 ， 以 便 在 之 后 进行 
重 写 。 

与 Java、C++、C# 不同 ,在 Diksam 中 可 以 给 构造 器 任意 起 名 字 。 在 new 实 
例 的 时 候 ， 使 用 以 下 的 形式 指定 构造 器 。 


// myinit () 是 用 户 自 定义 的 构造 器 


Point p = new Point.myinit (x, y); 

如 果 不 指定 方法 名 ， 只 写成 new Point (x，y) ; 的 话 , 会 调用 名 为 initialize 
的 构造 右 。 男 外 ， 在 类 定义 的 时 候 ， 如 果 一 个 构造 右 也 没有 定义 的 话 ， 编 译 带 会 
自动 创建 如 下 的 默认 构造 器 ( default constructor )。 
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Publ i Ee ona Eee or 
super.initialize() ; 
} 
Diksam 的 构造 器 可 以 在 子 类 中 进行 重 写 。 但 是 ， 构 造 需 并 不 会 进行 B.7.5 节 
中 写 到 的 参数 和 返回 值 的 检查 。 
另外 ， 构 造 器 仅 限 于 在 创建 实例 的 时 候 使 用 ， 在 实例 被 创建 以 后 ， 构 造 器 并 
不 能 像 普通 方法 那样 被 调用 。 



































作 EN 程序 库 


在 这 里 收录 了 Diksam 标准 程序 库 ( library ) 中 具有 代表 性 的 函数 和 类 。 


void print (string str); 
向 标准 输出 中 输出 作为 参数 接收 的 字符 串 。 
void println(string str); 


向 标准 输出 中 输出 作为 参数 接收 的 字符 串 ， 并 在 结尾 处 加 上 换行 符 。 

















File fopen(string file name, string mode); 


打开 文件 。 参 数 的 设计 以 C 语言 的 fopen () 为 基准 。 











string fgets (File file); 

从 file 指定 的 文件 中 读 取 一 行 ， 并 作为 返回 值 返回 。 
void fputs(string str, File file); 

向 file 指定 的 文件 中 输出 str。 

void felose(File file); 

关闭 参数 file 指定 的 文件 。 

double to doublel(int int value); 

将 int 转换 为 double。 
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int to int (double double value) ; 
将 double 转换 为 int。 


 B.8.2 | 内 建 类 


m File 

File 类 相当 于 C 语言 的 Filex 类 型 。 其 内 部 以 native _ pointer 类 型 保 
存 了 C 语言 的 File*， 因 此 并 没有 存在 特别 的 方法 等 内 容 。 
@ EXCeption 

Exception 类 是 所 有 异常 类 的 类 层级 的 顶端 。 

它 具 有 以 下 的 字段 和 方法 。 














public string message; 

保存 了 异常 信息 的 字段 。 

public StackTrace[] stack trace; 
保存 了 栈 轨 这 的 字段。 

void print stack trace(); 

偷 出 栈 轨迹 的 方法 。 

另外 ，StackTrace 类 的 定义 如 下 所 示 。 


class StackTrace { 
emnes nvmer, 
Seeing tmame 
Semng Funetlonmmame, 
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Diksam Virtual Machine 指令 





存 语言 的 设计 中 似乎 列 本 章 将 要 展示 Diksam VM( DVM ) 的 指令 集 一 览 表 *。 
出 了 一 些 不 支持 的 指令 ， 
请 把 它们 看 作 是 不 能 保证 
执行 正确 性 的 隐藏 功能 。 











DVM 指令 的 助 记 符 。 
操作 数 的 类 型 

byte 为 一 个 字 节 的 正 整 数 ，short 为 两 个 字 节 的 正 整数 (大 尾 序 )，cp 指 
的 是 常量 池 的 索引 值 ， 实 际 和 short 相同 。 
含义 

表示 当前 指令 的 含义 。 














栈 





























表示 指令 执行 时 栈 的 变化 。[] 内 表示 参与 操作 的 栈 顶 值 的 类 型 。 右 端 是 
操作 后 的 栈 顶 。 在 DVM 中 没有 boolean 和 function 类 型 ， 实 际 上 它们 都 
是 int 值 ， 只 不 过 为 了 容易 理解 而 写成 了 boolean、function。 

在 没有 给 出 运算 符 的 一 侧 (箭头 的 左 侧 )， 顺 序 是 有 意义 的 ， 因 此 [int1 
int2] 的 运算 结果 会 被 描述 为 [(int1 / int2)]。 结果 的 类 型 以 C 语 言 的 运算 
符 为 基准 ,例如 [(int1l > int2)] 的 类 型 为 boolean。 


























since 


表示 指令 对 应 的 是 哪个 版 本 。 
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马公 
指 < J 
指令 操作 数 类 型 | 含义 栈 since 
将 操作 数 指定 的 一 个 字 节 的 整数 . 
push int lbyte byte 、 > [int] 0.1 
入 栈 
将 操作 数 指定 的 两 个 字 节 的 整数 . 
push int 2byte short > [int] 0.1 
入 栈 
push int cp 将 常量 池 中 的 int 常量 入 栈 > [int] 0.1 
push double 0 将 double 常量 0 入 栈 > [double 0.1 
push double 1 将 double 常量 1 入 栈 > [double 0.1 
push double cp 将 常量 池 中 的 double 常量 入 栈 > [double 0.1 
push string cp 将 常量 池 中 的 string 常量 入 栈 > [string Qi 
push null 将 null 入 栈 > [object 0.2 
将 栈 中 以 base 为 基准 以 操作 数 > 
push stack int short > [int] 0.1 





为 偏 移 量 的 位 置 的 int 值 入 栈 








将 栈 中 以 base 为 基准 以 操作 数 为 
push stack double short a > [double] 0.1 
偏 移 量 的 位 置 的 double 值 入 栈 








将 栈 中 以 base 为 基准 以 操作 数 为 or pe 
us. stac BSCE1IN Snor wr 六 起 
人 偏 移 量 的 位 置 的 string 值 入 栈 3 



































将 栈 中 以 base 为 基准 以 操作 数 为 
€ 


bject] 02 
偏 移 量 的 位 置 的 object 值 入 材 人 


push stack object short 

















i 将 栈 中 以 base 为 基准 以 操作 数 a 1 pe 
O 〇 stac. 加 用 Snor TY 一 站 
ee 为 偏 移 量 的 位 置 的 int 值 出 栈 




















将 栈 中 以 base 为 基准 以 操作 数 为 


double] -> [] 0.1 
偏 移 量 的 位 置 的 doubl 栈 


pop_stack double short 


f 
了 站 
Ee 








将 栈 中 以 base 为 基准 以 操作 数 为 


操 
tring] -> [] 仅 0.1 
偏 移 量 的 位 置 的 string 值 出 栈 3 


pop_stack string short 


























Pe ee 将 栈 中 以 base 为 基准 以 操作 数 为 ee 0 
op stack objec shor 、 、 object] > 
6 偏 移 量 的 位 置 的 object 值 出 栈 
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C.2 指令 一 览 1 6G3 
( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
a i 义 操作 数 为 索引 值 ， 将 对 应 的 电 
一 LE . 
push static in shor int 型 静态 变量 入 本 
义 操作 数 为 索引 值 ， 将 对 应 的 
push static double short > [double] 0.1 
一 = double 型 静态 变量 入 栈 
h static stri t I tring] 仅 0.1 
> rin 
push static string shor string 型 静态 变量 入 柜 s g 
hn static object t X 控 作 加 为 案 中 得， 将 对 应 的 bject] 0.2 
一 | ee 
push static objec shor object 型 静态 变量 入 楼 j 
a 等 栈 项 的 值 出 栈 保存 为 int 型 静 ee 站 本 
pop_ static in shor 机 int] > E 
一 一 态 变量 ， 其 索引 值 由 操作 数 指定 
ER 等 栈 项 的 值 出 栈 保存 为 double 型 bie i 人 
op static double shor 、 ouble] > 
ee 静态 变量 ， 其 索引 值 由 操作 数 指定 
Ne 竹 栈 顶 的 值 出 栈 保存 为 string 型 Ne i 
op static strin shor Se string] > ; 
Se 静态 变量 ， 其 索引 值 由 操作 数 指定 
ER i 等 栈 项 的 值 出 栈 保存 为 object 型 a 15 
op static objec shor es object] > 人 
ee 静态 变量 ， 其 索引 值 由 操作 数 指定 
每 操作 数 指定 索引 值 的 int 型 常 . 
push constant int short ] > [int] 0.4 
一 量 入 栈 
将 操作 数 指定 索引 值 的 double 型 
push constant double short . ] > [double] 0.4 
一 一 常量 入 栈 
ER je 每 操作 数 指定 索引 值 的 object 型 es 
push constant cbjec shor i > [objec .4 
常量 入 栈 
Re 证 将 栈 项 的 值 出 栈 保存 为 int 型 常 和 ee 
pop_ constant in shor int] 之 : 
于 量 ， 其 索引 值 由 操作 数 指定 
tant doubl hort dd dna double] [] 0.4 
pop_ constant double shor i ee ouble] = . 
常量 ， 其 索引 值 由 操作 数 指定 
有 本 村 顶 的 值 出 栈 保 存 为 cbject | | ,1 
pop constant objec shor 测 显 天 二 站 汪汪 objec > .4 
常量 ， 其 索引 值 由 操作 数 指定 
根据 栈 中 的 数组 和 下 标 获 取 数 组 中 array int] > 
0 的 元 素 ( int 型 ) 并 将 其 入 栈 int] 
(( 三 四 
oo%) 
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( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
根据 栈 中 的 数组 和 下 标 获 取 数 组 . 
= array int] > 
push array _ double 中 的 元 素 ( double 型 )， 并 将 其 0.2 
double] 
入 栈 
根据 栈 中 的 数组 和 下 标 获取 数组 . 
时 array int] > [ob- 
push array_object 中 的 元 素 ( object 型 )， 并 将 其 ee 0.2 
jec 
入 栈 
将 栈 上 的 值 ( int1 ) 赋值 给 数组 int1 array int2] 
pop array int 0.2 
一 = array 中 下 标 为 int2 的 元 素 > 
将 栈 上 的 值 ( aouble ) 赋值 给 数 double array int] 
pop array double Wa 0.2 
一 一 组 array 中 下 标 为 int 的 元 素 > 
将 栈 上 的 值 ( object ) 赋值 给 数 object array int] 
pop_array_ object a es 0.2 
组 array 中 下 标 为 int 的 元 素 > 
从 栈 项 获取 索引 值 ， 并 取得 栈 中 
push character in 排 在 第 二 个 位 置 的 字符 串 ， 将 弛 [string int] > 有 
string 符 串 中 与 索引 值 对 应 ( 从 0 开始 ) | [int] 
的 字符 的 字符 编码 入 栈 
从 栈 中 对 象 的 字段 中 ( 由 操作 数 
push field int short 指定 索引 值 ) 取得 int 型 的 值 并 [object] > [int] 0.3 
将 其 入 栈 
从 栈 中 对 象 的 字段 中 ( 由 操作 数 , 
[object] -> [dou- 
push field double short 指定 索引 值 ) 取得 double 型 的 Be 0.3 
e 
值 并 将 其 入 栈 
从 栈 中 对 象 的 字段 中 ( 由 操作 数 , 
a [object] -> [ob- 
push field object short 指定 索引 值 ) 取得 object 型 的 ee 0.3 
g jec 
值 并 将 其 入 栈 
将 栈 中 int 型 的 值 出 栈 ， 并 赋值 
pop field int short 给 栈 中 指定 对 象 的 字段 ( 由 操作 | [int object] > [] 0.3 
数 指定 索引 值 ) 
将 栈 中 double 型 的 值 出 栈 ， 并 
[double object] -= 
pop_field double short 赋值 给 栈 中 指定 对 象 的 字段 ( 0.3 

















[] 











操作 数 指定 索引 值 ) 
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( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
将 栈 中 object 型 的 值 ( object1 ) 
出 栈 ， 并 赋值 给 栈 中 指定 对 象 [object1 object2] 
pop_field object short l 0'3 
三 到 ( object2 ) 的 字段 ( 由 操作 数 指 | > [] 
定 索引 值 ) 
， 进行 int 间 的 加 法 运算 ， 并 将 结 
add int 、 [int int] > [int] 0 
果 入 栈 
进行 double 间 的 加 法 运算 ， [double double] > 
add double 、 0.1 
将 结果 入 栈 [double] 
S ee [stringl1 string2] 
进行 string 间 的 加 法 运算 ， 上 
aqq_String 、 > [(stringl + (0 
将 结果 入 栈 ， 
string2)] 
进行 int 间 的 减法 运算 ， 并 将 结 | [int1l int2] -> 
SUb int 0.1 
果 入 栈 LCimntL = mt)] 
ee [doublel double2] 
进行 double 间 的 减法 运算 ， 
sub_double > [(doublel - dou- 0.1 
将 结果 入 栈 
ble2)] 
行 int 间 的 乘法 运算 ， 并 将 结 | 
mul _ int int int] > [int] 0.1 
果 入 栈 
行 double 间 的 乘法 运算 ， double double] > 
mul double 、 O81 
加 将 结果 入 栈 doublel] 
行 int 间 的 除法 运算 ， 并 将 结 int1 int2] > 
div int 0.1 
果 入 栈 (int1 / int2)] 
i 、 a 、 doublel double2] 
. 行 double 间 的 除法 运算 ， 并 
div_double > [(doublel / OQ: 
将 结果 入 栈 
double2)] 
进行 int 间 的 模 运 算 ， 并 将 结果 | [int1l int2] > 
mod int 、 0.1 
入 栈 [(int1 % int2)] 
Ne 、 有 [doublel double2] 
进行 double 间 的 模 运 算 ， 并 将 
mod double > [(fmod(doublel, 0.1 








结果 入 栈 





double2))] 
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364 | 附录 C Diksam Virtual Machine 指令 
( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
人 按 位 进行 与 运算 ( int 之 间 )， 并 ee ee 本 
EE an 、 i 沽 ， 全 训 
一 将 结果 入 栈 
按 位 进行 或 运算 ( int 之 间 )， 并 . | . 
bit or 、 int int] =» [int] 0.4 
本 将 结果 入 栈 
按 位 进行 异 或 运算 ( int 之 间 )， . 
bit xor int int] -> [int] 0.4 
将 结果 入 栈 
minus int 反 转 栈 顶 int 值 的 符号 int] -> [int 0.1 
ee double] > [dou- 
minus _ double 反 转 栈 顶 double 值 的 符号 | 0.1 
e 
| 均 位 进行 非 运算 ， 并 将 结果 入 栈 。 , ， 
bit not ， 人 int] —> [int] 0.4 
( 将 栈 项 的 int 值 按 位 取 反 ) 
increment 习 增 栈 顶 的 int 值 证 的 臣下 |] 0.1 
decrement 习 减 栈 顶 的 int 值 int] > [int] (0 
cast int to double 将 栈 项 的 int 值 转换 为 double int] > [doublel] 0. 
cast double to int 将 栈 顶 的 double 值 转换 为 int double] > [int] 0. 
全 栈 项 的 boolean 值 转 换 为 字符 boolean] -> 
cast boolean to string 0. 
二 二 二: 串 (true 或 者 false ) string 
cast int to string 符 栈 项 的 int 值 转换 为 字符 串 int] > [string] 0. 
double] ~ 
cast double to string 将 栈 顶 的 double 值 转换 为 字符 串 | 0. 
string 
cast_ enum to string 符 栈 项 的 enum 值 转换 为 字符 串 enum] -> [string] 0.4 
等 栈 顶 指向 对 象 的 引用 向 上 转型 object] > [ob- 6 
up_cast short 2 ns ly 
一 为 操作 数 指定 的 类 或 者 接 jectl 
可 ee 将 栈 项 指向 对 象 的 引用 向 下 转型 object] > [ob- 5 
own Cas shor ee : 
为 操作 数 指定 的 类 或 者 接 ject] 
进行 int 间 的 比较 ( == ) 并 将 结 int int] > [bool- 
eq_int 0.1 
和 果 入 材 ean] 
i 进行 double 间 的 比较 ( ==) double double] > 
EP 将 结果 入 栈 boolean] 
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( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
进行 object 间 的 比较 ( == ) object object] > 
eq object a 0.2 
加 将 结果 入 栈 boolean] 
进行 string 间 的 比较 ( == ) string string] > 
eq string 0.1 
- 将 结果 入 栈 boolean] 
进行 int 间 的 比较 (> ) 并 将 结 int1 int2] > 
gt int 、 0.1 
加 果 入 栈 (intl > int2))] 
i 加 doublel double2] 
行 double 间 的 比较 ( > ) 并 将 
gt double > [(doublel > 0.1 
- 结果 入 栈 
double2)] 
stringl 
， 进行 字符 串 间 的 比较 ( >/ 字 典 顺 | string2] => 
gt string 、 0.1 
本 序 ) 并 将 结果 入 栈 (wcscmp (string1, 
steing2)" 六 0) 
进行 int 间 的 比较 ( >= ) 并 将 结 int1 int2] > 
ge int 、 0.1 
加 果 入 栈 (int1 >= int2)] 
本 、 加 doublel double2] 
行 double 间 的 比较 ( >= ) 
ge double . > [(doublel >= 0.1 
将 结果 入 栈 
double2)] 
stringl 
人 进行 字符 捉 间 的 比较 ( >=/ 字典 string2] > 
ge string 、 0.1 
本 顺序 ) 并 将 结果 入 栈 (wcscmp (string1, 
SEE1Ng2) SE QO)] 
进行 int 间 的 比较 (<) 并 将 结 int1l int2] > 
Te Lt 、 Ou 
果 入 材 (int1 < int2)] 
到 A doublel double2] 
进行 double 间 的 比较 ( < ) 并 将 
lt double Cs > [(doublel < O81 
加 结果 入 栈 
double2)] 
[stringl 
, 进行 字符 串 间 的 比较 ( </ 字典 顺 | string2] -> 
lt string 、 0.1 
本 序 ) 并 将 结果 入 栈 [(wcscmp (string1, 
string2) < 0)] 
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366 | 附录 C Diksam Virtual Machine 指令 
( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
进行 int 间 的 比较 ( <= ) 并 将 结 | [intl int2] -> 
le int 、 0.1 
本 果 入 栈 [(int1 <= int2)] 
ee 本 [doublel double2] 
进行 double 间 的 比较 ( <= ) 并 
le double > [(doublel <= 0.1 
3 秆 结果 入 栈 
double2)] 
[stringl 
| 进行 字符 串 间 的 比较 (<=/ 字 典 | string2] > 
le string 、 0.1 
本 顺序 ) 并 将 结果 入 栈 (wcscmp (string1, 
String2) <= 0)] 
进行 int 间 的 比较 ( 内 容 比较 时 | [int int] > [bool- 
ne int 0.1 
区 用 != ) 并 将 结果 入 栈 ean] 
进行 double 间 的 比较 ( 内 容 比 double double] > 
ne double 、 0.1 
较 时 使 用 != ) 并 将 结果 入 栈 boolean] 
进行 object 间 的 比较 ( 内 容 比 object object] > 
ne object oo ， 、 0:2 
下 较 时 使 用 != ) 并 将 结果 入 栈 boolean] 
进行 string 间 的 比较 ( 内 容 上 string string] > 
ne_string ee ， 0. 
较 时 使 用 != ) 并 将 结果 入 栈 boolean] 
、 boolean boolean] 
logical and 和 针 逻 辑 与 ( AND ) 的 结果 入 栈 0. 
> [boolean] 
boolean boolean] 
logical or 和 逻辑 或 ( OR ) 的 结果 入 栈 0. 
> [boolean] 
boolean] > [bool- 
logical not 将 栈 项 的 值 取 逻辑 反 ( NOT ) 0. 
ean] 
pop 舍弃 栈 项 的 一 个 值 T] > [] 0. 
duplicate 制 栈 项 的 一 个 值 到 :3 [TT 0. 
制 距离 栈 项 的 第 n ( 操作 数 ) 个 , 
duplicate offset short . > [object] 0.3 
元 素 并 将 其 入 栈 
jump short 跳 转 到 操作 数 指定 的 地 址 > [] OQ 
如 果 栈 顶 的 值 为 true， 则 跳 转 到 
jump_if true short a & boolean] > [] 0.1 
操作 数 指定 的 地 址 
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如 果 栈 项 的 值 为 false， 则 跳 转 












































































































































































































































jump_if false short eo boolean] > [] Oud 
0 到 操作 数 指定 的 地 址 
Push_function Short 将 操作 数 指定 的 函数 的 索引 值 入 栈 ] > [function] 0.1 
创建 栈 中 对 象 中 以 操作 数 为 索引 object] -> [object 
push method short on 、 0:3 
值 的 方法 入 栈 int] 
通过 函数 的 索引 值 创建 delegate . 
push delegate short 、 ] > [object] 0.4 
活 将 其 入 栈 
创建 栈 中 对 象 中 以 操作 数 为 索引 
object] > [ob- 
push method delegate short 值 的 方法 的 delegate， 并 将 划 ke 0.4 
jec 
入 栈 
invoke 调用 栈 顶 的 函数 function] -> [xx] 0.1 
invoke delegate 调用 栈 顶 的 delegate object] -> [xx] 0.4 
以 栈 顶 的 为 返回 值 并 将 函 类 
四 尺 栈 项 的 值 作为 返回 值 并 将 函数 返回 值 ] 。 [ed pe 
return 
对 操作 数 short 指定 的 索引 值 的 . 
new short es ] > [object] 0.3 
类 进行 new 操作 
创建 以 操作 数 short 所 示 类 型 组 
人 、 Sizel size2 .,.] 
new array byte, short 成 的 byte 维 数 组 栈 中 指定 | ] 0.2 
本 、 . > [array 
个 数 的 元 素 )， 并 将 其 入 栈 
以 已 经 入 栈 的 给 定数 量 的 int 类 , , 
new array literal ee i int1 int2. int3 
i 一 一 | short 型 的 操作 数 为 元 素 创 建 数组 ， 0.2 
int ...] > [array] 
将 其 入 栈 
. 以 已 经 入 栈 的 给 定数 量 的 double doublel double2 
new array literal , ee Pe 
= 3 一 | short 类 型 的 操作 数 为 元 素 创 建 数组 ， double3 ...] > 02 
double 
将 其 入 栈 array] 

















以 已 经 入 栈 的 给 定数 量 的 object object1 object2 
new array literal_ 
























































| short 类 型 的 操作 数 为 元 素 创 建 数 组 ， object3 ...] > 0:2 
object 、 
将 其 入 栈 array] 
等 栈 项 的 对 象 引用 的 vtable 转换 object] > [ob- 
super 、 03 
为 它 父 类 的 ject] 
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( 续 ) 
指令 操作 数 类 型 | 含义 栈 since 
返回 栈 顶 的 对 象 是 否 属于 操作 数 object] > [bool- 
instanceof short i 0.3 

的 索引 值 所 对 应 类 的 实例 ean] 
她 出 栈 项 的 异常 。 同 时 清除 栈 轨 | 
throw 、 object] -> [xx] 0:4 
还 
rethrow 汇 出 栈 项 的 异常 object] -> [xx] 0.4 
， 巴 当前 的 程序 计数 器 入 栈 ， 并 跳 
go finally short rt ] > [pc] 0.4 
转 到 操作 数 所 示 的 地 址 
在 异常 状态 下 throw 捕 获 的 异常 。 
在 非 异 常 状态 的 时 候 ， 返 回 到 通 
finally_end [pc] > [] 0.4 

















过 go finally 跳 转 过 来 的 
( 从 栈 中 恢复 程序 计数 器 ) 

















位 置 
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在 本 书 中 ， 我 们 一 起 制作 了 crowbar 和 Diksam 两 种 编程 语言 。 让 我 感到 欣慰 
的 是 ， 书 中 的 示例 程序 不 只 是 停留 在 入 门 级 别 ， 而 是 达到 了 实用 语言 的 水 准 。 
亲爱 的 读者 朋友 们 ， 希望 你 们 也 能 尝试 制作 属于 自己 的 编程 语言 。 不 过 说 出 
来 你 们 可 能 会 大 跌眼镜 , 编程 语言 的 魅力 基本 上 是 由 它 的 程序 库 来 决定 的 ， 而 这 
是 不 容 争 辩 的 事实 。 

例如 ，Perl 由 于 正则 表达 式 等 强 有 力 的 字符 串 处 理 功 能 得 到 了 广泛 的 应 用 。 

在 Perl4 的 时 候 ， 作 为 编程 语言 ，Perl 既 没 有 引用 ， 也 不 能 创建 数据 结构 ， 可 
说 很 难 用 。 但 是 ， 因 为 它 处 理 文本 文件 十 分 方便 ， 所 以 得 到 了 广泛 使 用 。 同 样 ， 
PHP 也 因为 提供 了 很 多 面向 网 页 应 用 的 功能 而 得 到 了 普及 。 语 言 是 否 实用 ， 是 和 否 
能 够 普及 ， 实 际 上 和 语言 的 设计 本 身 没有 太 大 关系 。 

因此 ， 我 在 发 明了 crowbar 和 Diksam 两 种 语言 后 ， 为 它们 加 载 了 各 自 的 程 
序 库 。 

首先 ， 我 为 crowbar 加 载 了 鬼 车 ， 使 它 具 有 用 正则 表达 式 处 理 文本 的 能 力 。 

在 Diksam 中 我 用 crowbar 来 处 理 文本 。 在 文本 处 理 这 个 领域 里 已 经 有 了 
Perl 、Ruby 等 语言 ， 因 此 就 算是 为 此 特地 制作 一 门 语言 也 不 会 得 到 广泛 普及 。 用 
来 开发 Web 应 用 的 编程 语言 更 是 琳琅 满目 ， 比 如 PHP、Perl、Ruby、Java、ASP、 
ASPNET 等 ， 在 这 个 领域 中 还 充斥 着 各 种 框架 ， 可 以 说 是 一 个 大 杂烩 。 租 赁 服务 
器 更 是 让 人 头疼 ， 好 不 容易 做 的 网 页 应 用 ， 有 可 能 会 因为 服务 顺 不 能 文 持 而 不 能 
使 用 。 就 这 点 来 说 ， 已 经 很 让 人 泪 丧 了 。 

因此 ， 我 考虑 让 Diksam 定位 为 “让 初学 者 可 以 制作 简单 游戏 的 语言 ”。 

在 很 早 之 前 ,我 自己 就 是 这 样 走 上 了 编程 的 道路 。 

那个 时 候 ( 1980 年 左右 ) 的 个 人 电脑 ， 大 多 将 BASIC 作为 标准 配置 。 那 个 
时 候 的 编程 语言 没有 IF 语句 中 begin~end 或 者 {} 之 类 的 程序 块 的 概念 ， 选 
择 分 文 的 时 候 必 须 使 用 GoTo 行 号 的 方式 进行 跳 转 。 也 没有 循环 结构 的 FOR 语 
句 。 要 在 循环 外 面 记录 循环 计数 器 后 ， 再 使 用 GoTo 进行 跳 转 。 虽 然 可 以 使 
用 GosUB 制作 子 程序 ， 但 是 不 能 定义 局 部 变量 ， 所 有 变量 都 要 当做 全 局 变量 3 

Visual Basic 的 名 字 虽 ”处理 。 此 外 ， 变 量 名 字 不 看 到 第 2 个 字符 ， 是 区 分 不 出 来 的 *。 当 然 ， 这 是 时 代 
然 继 承 了 Basic, 但 其 。 的 选择 ,不 过 ， 当 时 的 BASIC 作为 编程 语言 来 说 还 真是 不 怎么 样 。 


实 是 完全 不 同 的 另 一 种 
语言 。 即使 如 此 ， 我 当时 只 用 了 几 十 行 代码 就 可 以 写 一 款 射 击 游 戏 (用 字符 “十 ” 
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从 HSP3 开始 可 以 通过 
函数 实现 。 
仅 限 于 Win 





这 种 情况 
台 


dows 对 


Yi 








o 


当做 炮台 来 击落 用 字符 “-o-” 做 成 的 飞碟 )。 我 觉得 这 个 过 程 十 分 有 趣 ， 这 也 是 
我 踏 上 编程 学 习 道路 的 第 一 步 。 

但 是 对 于 现在 的 年 轻 人 来 说 ， 却 不 知道 怎么 去 实现 一 款 简单 的 游戏 。 

现在 这 些 PC 的 性 能 与 当时 相 比 可 以 说 有 了 飞跃 性 的 提高 ， 也 出 现 了 各 种 各 
样 的 编程 语言 和 免费 的 处 理 器 。 但 是 ， 比 如 在 C 语言 中 ,使 用 不 依赖 处 理 器 的 标 
准 C， 就 连 窗 体 都 打 不 开 。 即 便 只 是 在 Windows 中 能 够 运行 起 来 的 程序 ，C 语言 
也 要 通过 Windows 的 API 来 创建 窗口 ， 如 此 复杂 的 程序 初学 者 根本 应 付 不 来 。 

我 觉得 在 现在 C 语言 的 入 门 书 中 ， 多 半 从 “hello,wor1d.” 开 始 介绍 许多 
命令 行程 序 。 但 是 ， 我 在 中 学 时 代 ， 从 最 开始 就 能 写 出 和 “hel1lo, wor1d.” 差 
不 多 的 程序 ， 接 着 就 编 了 猜 数 字 游 戏 ， 然 后 就 想 着 要 做 一 款 打 飞 碟 的 游戏 了 。 妆 
今 ， 计 算 机 已 经 十 分 先进 ， 但 人 们 在 这 个 方面 反而 退化 了 。 

当然 ， 现 在 不 仅 可 以 使 用 C 语 言 ， 也 考虑 使 用 Java。Java 中 的 GUI 可 以 
不 依赖 于 处 理 需 ， 因 此 也 可 以 把 游戏 做 成 Applet 发 布 在 网 站 上 ， 在 朋友 面前 炫 
耀 一 把 。 但 这 样 一 来 ， 在 创建 类 的 时 候 就 需要 继承 一 种 叫 作 java.applet . 
Applet 的 类 , 并 重 写 它 的 init () 和 paint () 之 类 的 方法 。 这 里 突然 出 现 了 很 
多 面向 对 象 的 知识 ， 初 学 者 一 时 之 间 很 难 接受 。 也 许 有 人 会 觉得 我 又 在 这 里 老 调 
重 弹 了 ,但 是 仔细 想 想 ， 为 了 从 GUI 接收 输入 ， 就 必须 要 创建 事件 监听 器 、 实 现 
特定 的 接口 ， 除 此 之 外 还 需要 使 用 内 部 类 和 匿名 类 。 这 些 还 没完 ， 因 为 制作 的 是 
实时 游戏 ， 为 了 实现 动画 效果 还 需要 使 用 多 线程 进行 异步 处 理 。 这 些 对 于 一 个 新 
手 来 说 简直 是 个 噩梦 。 

再 者 ， 制 作 “ 打 飞碟 ”这 样 一 款 游戏 对 于 JavaScript 来 说 也 不 是 很 容易 。 可 
制作 FLASH 的 语言 ActionScript， 它 的 标准 处 理 器 又 不 是 免费 的 。 

HSP (Hot Soup Processor ) 语言 是 我 在 中 学 时 代 玩 过 的 类 似 于 BASIC 的 语 
言 。 不 过 ， 很 对 不 起 这 门 语 言 的 fans， 这 门 语言 本 身 和 与 它 同 时 代 的 BASIC 如 出 
一 略 ， 因 此 对 于 刚 开始 学 习 编 程 的 人 来 说 非常 不 推荐 。 它 甚至 没有 GOSUB*。 

因此 ， 我 在 Diksam 中 加 载 了 可 以 让 “ 打 飞 碟 ” 游 戏 实现 起 来 更 为 简单 的 程 
序 库 *。 

因为 要 制作 的 游戏 非常 简单 ， 所 以 无 须 特 意 想 着 面向 对 象 和 事件 驱动 的 概 
念 。 例 如 “ 打 飞 碟 ” 游 戏 可 以 写成 下 面 这 样 。 
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代码 清单 1-4 
“ 打 飞 碟 ” 游 戏 的 程序 
( ufo.dkm ) 


require diksam.window; 














// 创建 设置 窗 体 属性 的 WindowAttribute 对 象 。 

: WindowAttribute attr = create window attribute(); 
// 设置 背景 色 为 黑色 。 

attr.background = create solid brush(0, 0, 0); 












































// 创建 窗 体 。 如 果 使 用 默认 设置 就 可 以 ， 
// 那么 不 创建 attr 传 入 null 即 可 。 
: Window w = create window (“UFO 游戏 ”"，800，600,， attr); 
































// 使 用 x 键 终止 程序 。 


: W.set destroy proc(window destroy and exit); 

















mmNDDHheDooo、~aOU wmwWN 
































// 为 了 描绘 窗 体 取得 Graphics 接口 。 
18: Graphic g = w.get _ graphics () ; 

19: // 将 字符 的 背景 色 设置 为 黑色 。 

20: g.set background color (new Color(0, 0, 0)); 
































22: // 战 车 、 激 光 、UFO 的 颜色 设置 。 

23: Color tank color = new Color(60, 255, 100); 
24: Color ufo color = new Color(60, 255, 255); 
25: Color beam color = new Color(255, 255, 100); 
26: // 生成 字体 。 详 细 的 设置 ( FontAttribute ) 

27: // 与 WindowAttribute 相同 ， 当 前 默认 为 nullo。 

28: Font font = create font(25, null); 











30: // 随机 数 的 初始 化 


31: randomize(); 























33: // 游戏 结束 后 再 开始 使 用 的 循环 
34: for(;;) { 
35: // 设 定 炮台 ( tank )、ufo 的 坐标 。 将 tank x，, ufo _x，ufo y 的 
36: // 当前 坐标 赋值 给 prev， 作 为 前 一 次 绘制 的 坐标 ( 消除 时 使 用 )。 



















































































37: // ufo_next x,y 作为 ufo 的 移动 目标 的 坐标 。 

38 : // ufo 将 在 ufo_next x,y 的 附近 移动 ， 

39: // 但 如 果 两 次 坐标 基本 相同 ， 则 重新 设 定 ufo next x,yo 
40: int tank x = 0; 

41 int ufo Xx = 0; 

42 int ufo Ys 0; 

43 : int Ufo Prev x 三 ufo x; 

44: int vfo prev VY = EC YY 

45: int ufo next x = random(700); 

46: int ufo next y = random(450); 





47: // 是 否 存在 ) 折合 发 射 的 激光 的 标识 和 激光 坐标 
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48 : 
49 : 
SO 
Sls 
S23 
533 
54: 
与 马 避 
S56 
SE 
S58: 
S93 
60: 
从 二 
623 
633 
64: 
65: 
66 : 
全 7 
68 : 
69: 
T7003 
2 
Ta 
233 
74: 
4 
764 
人 
了 8 
a 
80: 
81: 
日 了: 
3 
84: 
B85 
B63 
87s 
88: 
893 
0 
Ls 
2 
93: 
94: 


boolean beam flag = false; 
int beam prev y; 

int beam x; 

int beam y; 


// 游戏 的 主 循环 
5 
// 消除 前 一 次 画 出 来 的 UFO。 
g.draw string(font, ufo color, ufo prev x, ufp prev y," Vy 
// 绘制 UFO。 
g.draw string(font, ufo color, ufo x, ufp y," Fo 了 "); 
// 为 了 再 次 消除 ， 保 存 本 次 绘制 的 坐标 。 


ufo prev x = ufo x; 























ufo prev y = ufo y; 

// 绘制 炮台 。 

g.draw string(font, ufo color, tank x, 540," /十 N\ 

// 发 射 了 激光 的 话 …… 

if (beam flag){ 
// 消除 前 面 的 激光 ， 重 画 新 的 激光 。 


g.draw string(font, ufo color, ufo prev x, ufp prev y," "); 








ll 




















g.draw string(font, ufo color, ufo x, Wp: yy | "Ys 
beam prev y = beam y; 














// 碰撞 判断 。 可 能 很 幼稚 。 

if(beam x >= ufo x && beam x < ufo x + 80 
&& beam y >= ufo y && beam y < ufo y +60){ 
// 被 激光 打 中 后 跳出 循环 。 


break; 











// 通过 判断 键盘 输入 移动 炮台 。 

if(is key pressed(KeyCode.LEFT) && tank x > 0){ 
tank x -= 10; 

} elseif (is key pressed (KeyCode.RIGHT) && tank x < 700){ 
tank x += 10; 

} 

if(is key pressed (KeyCode.SPACE) && !beam flag){ 
beam flag = true; 
beam x = tank x + 40; 
beam y = beam prev y = 480; 

} 

// UFO 的 移动 。 在 ufo_next x,y 的 附近 移动 。 


if(ufo x < ufo next x -10){ 





ufo x += 10; 
} elseif (ufo x > ufo next x + 10){ 
ufo x -= 10; 
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136: 


} 


// 被 激光 打 中 后 跳 
for(;;){ 
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} else { 
// 如 果 两 次 坐标 基本 相同 ， 则 重新 设 定 目标 坐标 。 
ufo next x = random(700); 









































if(ufo y < ufo next y - 10) { 
ufo y += 10; 

} elseif (ufo y > ufo next y + 10) { 
ufo y -= 10; 

} else { 
ufo next y = random(450); 


} 
// 激光 的 移动 
if (beam flag) { 
if(beam y < -20){ 
beam flag = false; 
} 
beam y -= 20; 
} 
// 定时 消息 循环 。 无 论 有 没有 
// 鼠标 或 者 键盘 事件 ， 都 等 待 20 毫秒 。 


timed message loop(w, 20); 



































TU 
[e] 





午 环 ， 执 行 这 号 


CC 
= 


// 显示 爆炸 效果 


Color explosion color = new Color(255, 0, 0); 


g.draw string(font, explosion color, ufo x, ufo y, 


timed message loop(w, 100); 


g.draw string(font, explosion color, ufo x, ufo y, 


timed message loop(w, 100); 
// 按 对 重启 游戏 按 Q 退 出 。 
if (is key pressed (KeyCode.N)){ 








Brush b = create solic brush(0, 0, 0); 
g.fil1 rectangle(b, 0, 0, 800, 600); 
b.dispose () ; 
break; 

} elsif (is key pressed(KeyCode.Q)) { 
exit (0) ; 


由 天 大 大 1 ) ; 


"####") ; 








游戏 的 截屏 如 下 所 示 。 
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a 这 是 个 跟 我 同时 代 的 人 都 会 怀念 的 画面 吧 *。 

ee 图 标 Diksam 在 这 个 领域 的 进化 旅程 才刚 开始 ， 谁 也 不 知道 它 在 未 来 会 变 成 什么 样 
子 。 但 是 ， 在 代码 清单 “ufo.dkm” 的 程序 中 ， 只 能 有 一 架 UFO， 在 同一 时 间 炮 
台 只 能 发 射 一 发 激光 ( 因为 表示 UFO 和 激光 位 置 的 变量 只 有 一 组 )。 如 果 觉 得 这 

















没意思 的 话 ， 就 必须 要 使 用 数组 了 。x 坐标 和 y 坐标 要 是 都 使 用 数组 来 管理 的 
话 ， 肯 定 会 很 不 方便 ， 如 果 有 类 的 话 感觉 就 会 方便 很 多 。 同 样 ， 即 使 不 同时 出 现 
多 个 飞碟 ， 如 果 想 要 各 种 各 样 的 敌人 轮番 登场 ， 就 要 使 用 继承 和 多 态 了 …… 一 门 
语言 因为 追寻 着 这 样 的 思路 而 具有 了 面向 对 象 的 概念 ， 真 让 人 兴 

各 位 读者 朋友 ， 你 们 想 让 自己 的 编程 语言 向 哪个 方向 发 展 呢 ? 希望 本 书 和 能 给 
各 位 带 来 一 些 启发 。 
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中 Principles of Compiler Design 的 封面 是 一 名 骑士 和 一 只 恐龙 ， 因 此 被 人 称 为 “ 龙 书 "， 但 因为 那 












































条 龙 是 绿色 的 ， 所 以 称 为 “ 绿 龙 书 "。9 年 后 ( 1986 年 )， 原 来 的 两 位 作者 加 上 Ravi Sethi, 升级 
了 这 本 书 ， 书 名 改 为 Compilers: Principles, Techniques and 7Too/ls,， 封 面 依然 沿用 骑士 和 恺 龙 ， 
那 头 龙 是 红色 的 ， 因 此 被 叫 作 “ 龙 书 二 ”或 者 是 “ 红 龙 书 ”。 一 一 译 者 注 
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图 其 他 推荐 的 书 


版 了 








关于 制作 编程 语言 的 书 虽然 经 常会 出 ,但 是 多 数 由 于 出 版 量 不 大 而 慢 慢 地 绝 
(希望 本 书 不 会 这 样 ) 
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因此 我 将 以 前 学 习 过 的 书 作 一 个 介绍 〈 说 句 题 外 话 ， 近 茧 嘉 雪 老师 的 “yacc 
志 坏 克 C 三 站 三 了 局 分 三 公交” (使 用 yacc 开发 C 语言 编译 器 》) 一 书 在 
日 本 亚马逊 网 站 上 卖 到 了 245 000 日 元 ”"， 即 使 是 这 样 我 仍然 觉得 这 本 书 很 值得 )， 
在 这 里 只 介绍 一 些 价格 合适 并 且 在 市 面 上 可 以 买 到 的 书 。 

下 面 列 出 的 是 本 书 出 版 时 (2009 年 4 月 ) 的 参考 书籍 。 











@@ 新 三 盖 已 二 一 久 雪 千 工 冯 讲义 过 IT 

中 文 译名 :《 新 计算 机 科学 讲座 : 编译 器 》 

作者 : 田中 育 男 

出 版 社 : Ohmsha 出 版 社 ，1995 

日 本 编译 器 第 一 人 田中 育 男 先生 的 书 。 

田中 先生 的 这 本 书 以 理论 为 主 ， 难 点 很 多 。 书 中 记录 了 类 似 于 Pascal 的 语言 
处 理 “PL/0” 的 全 部 代码 ， 很 有 实用 价值 。PL/0 是 一 个 递归 下 降 语 法 分 析 器 ， 因 
此 本 书 可 以 为 不 想 使 用 yacc 来 制作 编程 语言 的 人 提供 参考 。 























@@ lex &yacc THIF 

英文 版 : /ex & yacc 

中 文 版 :《1lex 与 yacc》( 机 械 工 业 出 版 社 已 绝版 ) 

O'Reilly 的 动物 系列 图 书 。 我 认为 就 凭 它 在 这 个 系列 中 ， 这 本 书 就 值得 信 
赖 。 它 的 出 版 时 间 较 早 ， 但 可 以 作为 yacc/lex 的 参考 手册 ， 是 一 本 非常 有 实用 价 
值 的 书 。 

下 面 这 些 书 是 我 目前 正在 学 习 的 。 


O 


和 @ 三 盖 人 1 三 工 一 原理 技法: 一作 

英文 版 : Compilers: Principles, Techniques, and Tools (2nd Edition) 

中 文 版 :《 编 译 原 理 》( 机 械 工业 出 版 社 ) 

可 以 说 是 编译 右 制 作 方面 的 圣经 之 著 。 因 为 封面 上 印 有 龙 的 图 案 所 以 被 叫 作 
“ 龙 书 ”( 确切 地 说 应 该 是 “ 红 龙 书 ” )( 第 4 草 中 译 者 也 引用 了 这 本 书 中 的 内 容 )。 

本 书 是 原版 的 第 一 卷 。 现 在 ,第 二 卷 已 经 很 难 见 到 了 ( 即便 是 作者 这 样 的 资 
深入 士 也 没有 机 会 收藏 )。 

本 书 内 容 不 太 容 易 理解 ( 例如 在 不 使 用 yacce 的 情况 下 制作 LR 解析 器 )， 但 


























@ 相当 于 人 民 币 15 000 元 左右 。 一 一 译 者 注 
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我 觉得 这 是 本 不 可 不 读 的 好 书 。 


@ 三 盖 人 二 三 DO 构 成 上 最 通化 

中 文 译名 :编译 器 的 结构 与 优化 》 
作者 : 田中 育 男 
出 版 社 : 朝 仓 书店 ，1999 

又 是 田中 先生 的 书 。 其 中 对 “优化 ”的 讲解 占 到 了 本 书 一 半 以 上 的 篇 幅 。 
如 果 你 想 要 了 解 现在 的 商业 化 编译 器 是 怎样 做 的 ， 这 本 书 再 合适 不 过 了 。 























®@ Garbage Collection: Algorithms for Automatic Dynamic Memory Management 

作者 : Richar Jones,Rafael Lins 

出 版 社 : John Wiley & Sons，1996 

尚 无 译本 。 本 书 中 不 仅 介绍 了 标记 - 清除 GC 和 Copying GC 等 算法 ， 还 讲解 
了 通过 简单 地 实现 来 解决 问题 的 方法 (分 代 式 GC、 增 量 GC、 并 发 GC 等 )。 
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刘 卓 。 2004 年 开始 对 日 软件 开发 工作 ， 其 间 还 
从 事 技术 及 软件 工程 相关 培训 工作 。 自 2011 年 开 
始 从 事 电力 行业 产品 研发 。 持 续 关 注 企业 级 应 用 
架构 和 Web 客 户 端 技术 。 



































徐 谦 6 年 技术 开发 及 项 目 经 验 ， 曾 以 技术 工程 
师 身份 赴 日 本 工作 两 年 ， 后 归 国联 合 创办 互联 网 
公司 ， 现 居 上 海 继 续 创业 中 。 主 要 从 事 PHP 方 应 
的 Web 开 发 。 热 爱 开 源 ， 曾 向 Zend Framework 等 
知名 PHP 开 源 项 目 贡 献 代 码 ， 并 于 Github 自 主 研 
发 运 维 EvaThumber 等 开源 项 目 ， 获 得 国内 社区 认 
可 。 乐 于 分 享 技术 心得 ， 个 人 技术 博客 avnpc.com 
在 国内 PHP 圈 小 有 影响 。 








































































































吴 雅 明 ”13 年 编程 经 验 ， 其 中 7 年 专注 于 研发 基 
于 Java EE 和 .NET 的 开发 框架 以 及 基于 UML 2.0 模 
型 的 代码 生成 工具 。 目 前 正 带领 团队 开发 云 计算 
PaaS 平 台 及 云 计算 自动 化 配置 部 署 的 系统 。 译 著 
有 《征服 C 指 针 》 等 。 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 
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